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信息 技术 日 新 月 异 ,机 器 智能 更 是 一 个 快速 发 展 的 领域 ,其 所 引发 的 社 
会 变化 和 带 来 的 社会 影响 也 是 巨大 的 。 围 绕 这 一 领域 的 热点 技术 ,如 深度 
学 习 和 强化 学 习 , 涉 及 一 些 基 础 数学 知识 ,包括 微 积分 、 线 性 代数 和 优化 理 
论 等 。 机 器 智能 作为 计算 机 科学 的 一 个 应 用 ,虽然 涉及 计算 机 体系 结构 、 分 
布 式 系统 、 软 硬件 协同 设计 、 算 法 与 数据 管理 等 诸多 计算 机 理论 知识 ,但 其 
核心 内 容 还 是 算法 与 数据 。 

AlphaGo 战胜 人 类 围棋 大 师 , 其 实 就 是 人 类 所 创造 的 智能 工具 能 力 的 
胜利 ,是 科学 理性 的 胜利 。AlphaGo 的 成 功 ,证 明了 基于 深度 强化 学 习 和 蒙 
特 卡 洛 树 搜索 方法 的 机 器 智能 ,在 很 多 规则 清晰 的 场景 下 完全 可 以 比 人 类 
做 得 更 好 。 

机 器 智能 的 领域 不 断 扩 大 , 遇 到 的 问题 也 越 来 越 多 ,需要 人 们 不 断 创 
新 ,不 断 深入 探究 。 近 些 年 来 的 教学 实践 表明 ,对 于 一 个 新 的 知识 领域 ,在 
具备 一 定 的 基础 知识 后 ,本 科 生 完全 有 能 力 投入 这 一 领域 前 沿 技术 的 研究 
工作 中 。 本 书 的 目的 就 是 要 通过 系统 整理 机 器 智能 领域 知识 点 ,帮助 本 科 
同学 迅速 了 解 全 狐 , 从 而 快速 深入 技术 细节 ,为 进一步 的 科研 工作 打下 
基础 。 

大 凡 与 机 器 智能 相关 的 技术 ,都 需要 训练 有 素 的 头脑 ,快速 分 析 问 题 与 
解决 问题 的 能 力 。 所 以 ,本 科 同 学 要 想 进 入 这 个 领域 ,除了 解 、 掌 握 本 书 中 
的 知识 和 实践 操作 外 ,还 需要 不 断 地 训练 自己 思考 问题 和 解决 问题 的 能 力 。 

本 书 的 编写 离 不 开 清 华 大 学 iCenter 智能 系统 实验 室 教 师 团队 的 协助 ， 
他 们 是 马 晓 东 、 章 屹 松 、 王 车 和 高 英 。 本 书 在 本 科 生 课程 “大 数据 智能 ”与 “ 智 
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能 硬件 ”的 实践 教学 中 ,根据 反馈 意见 已 经 做 了 多 次 修订 。 实 验 室 学 生 郑 文 勋 王 亦 凡 、 
常 嘉 辉 、 吴 地 李 、 冯 杰 、 宋 丹 丹 、 钱 胶 等 多 次 担任 课程 或 单元 的 助教 ,为 本 书 的 完善 做 出 很 
大 贡献 。 实 验 室 SRT 学 生 的 多 次 学 术 活动 ,也 为 本 书 提供 了 有 益 的 参考 资料 。 

同时 ,我 们 也 得 到 微软 公司 ETG 团队 的 大 力 支持 ,他 们 是 杨 滔 、 章 艳 、 刘 士 君 . 间 伟 。 
微软 公司 除了 提供 云 计算 与 机 器 学 习 服 务 支持 外 ,还 连续 三 届 为 清华 iCenter 人 工 智 
能 挑战 赛 提供 了 支持 , 极 大 方便 了 我 们 的 课程 教学 和 实验 工作 。 

最 后 ,感谢 所 有 参与 我 们 课程 及 挑战 单元 的 同学 们 。 他 们 朝气 莲 勃 ,锐意 进取 ,对 未 
知 领 域 充满 好 奇 并 进行 着 不 知 疲倦 的 探索 。 我 们 坚信 ,他 们 是 学 术 和 产业 的 希望 及 
未 来 。 
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机 器 智能 的 发 展 
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14, 机 器 智能 


1.1.1 机 器 智能 的 定义 


通俗 地 说 ,机 器 智能 就 是 用 机 器 (如 计算 机 ) 完 成 人 类 需要 用 大 脑 完成 的 任务 ,代替 
人 脑 的 工作 ,例如 下 棋 、 开 车 ,阅读 理解 等 。 

机 器 智能 是 指 计 算 机 系统 体现 的 智能 的 能 力 , 如 从 听 、` 说 , 读 、 写 到 搜索 、 推 理 、 决 策 
和 回答 问题 等 ,同时 也 指 如 何 设计 实现 计算 机 系统 和 软件 ,使 其 具有 智能 的 行为 。 


1.1.2 机 器 智能 的 分 类 


目前 ， 机 器 智能 一 般 分 为 机 器 感知 和 机 器 认 知 两 个 层面 , 如 图 1-1 所 示 。 
机 器 感知 : 包括 语音 识别 ,视觉 识别 、 运 动 控制 和 眼 手 协同 等 。 
机 器 认 知 : 包括 机 器 学 习 、 自 动 推 理 、 人 工 意识 和 知识 表示 等 。 
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REO) Es 
机 器 认 知 d E 
一 一 人 工 意识 
一 知识 表示 


让 机 器 像 人 一 样 听 懂 © 


一 一 语音 识别 


机 器 感知 4 让 机 器 像 人 一 样 看 慌 
一 一 视觉 识别 


让 机 器 像 人 一 样 运动 
一 一 运动 控制 和 眼 手 协同 


1-1 机 器 智能 示意 图 
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1.2.1 机 器 智能 的 神经 网 络 方法 


人 脑 含有 约 860 亿 个 神经 元 ,还 有 大 致 850 亿 个 非 神经 细胞 。 在 大 脑 皮层 (Cortex) 
约 有 160 亿 个 神经 元 ,小 脑 有 690 亿 个 神经 元 。 人 脑 的 神经 元 一 般 只 与 周围 几 千 个 神经 
元 相连 接 , 彼 此 能 够 传导 电信 和 号。 

要 让 机 器 代替 人 脑 工 作 ,最 直观 的 方法 就 是 用 机 器 来 模拟 人 脑 的 工作 行为 。 但 是 要 
模拟 这 些 人 脑 工作 的 原理 有 难度 。 

首先 ,人 脑 作 为 一 个 系统 , 太 复杂 ,涉及 生物 学 、 生 理学 、 化 学 等 学 科 知 识 ; 其 次 ,至 今 
人 们 还 未 彻底 理解 人 脑 的 各 个 功能 的 工作 机 理 。 当 然 ,确实 有 研究 人 员 是 沿 着 这 个 思路 
去 实现 机 器 智能 的 。 

那 是 否 还 有 别 的 思路 呢 ? 其 实 思路 也 挺 多 的 ,这 里 有 一 种 称 为 人 工 神经 网 络 
(Artificial Neural Networks) 的 方法 ,最 近 在 实践 中 被 证 明 是 有 效 的 方法 。 这 种 方法 又 
称 为 连接 主义 (Connectionism) ,其 核心 思想 是 通过 大 量 简单 计算 单元 连接 起 来 的 网 络 来 
实现 复杂 的 智能 行为 。 

这 种 方法 首先 是 用 数学 方法 来 抽象 出 单个 神经 元 (Neuron) 的 功能 ,构建 出 单个 人 工 
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神经 元 的 模型 。 其 次 ,在 单个 神经 元 建 模 的 基础 上 ,参考 人 脑 中 神经 元 的 连接 方式 ,构建 
人 工 神经 网 络 。 最 后 ,通过 输入 数据 样本 给 神经 网 络 训练 ,调整 神经 网 络 的 参数 ,使 其 完 
成 具有 某 些 智能 的 任务 (如 眼睛 看 、 耳 打听 等 )。 


1.2.2 人 工 神经 元 与 人 工 神 经 网 络 


对 于 单个 神经 元 的 活动 原理 ,目前 已 经 有 比较 深入 的 研究 。 不 论 何 种 神经 元 ,从 功 
能 上 可 以 分 为 接收 区 域 (Receptive Zone)、 触 发 区 域 (Trigger Zone)、 传 导 区 域 
(Conducting Zone) 和 输出 区 域 (Output Zone). 

这 里 给 出 人 工 神经 元 的 数学 抽象 模型 ,也 称 为 逻辑 斯 提 回 归 单 元 (Logistics 
Regression Unit)。 人 工 神 经 元 模型 如 图 1-2 所 示 , 这 种 结构 又 称 为 McCulloch-Pitts 神 
经 元 。 它 将 个 输入 加 权 求 和 后 ,经 过 变换 f(x) 输出。 人 逻辑 斯 提 回 归 单 元 的 FO 函数 就 
JEZ HJ e PR 8k Logistics Function) , 

将 这 些 单个 人 工 神 经 元 联网 ,形成 复杂 的 人 工 神 经 网 络 结构 ,并 可 以 不 断 扩大 网 络 
的 层 数 (又 称 为 深度 ) 和 人 工 神经 元 的 数目 ,如 图 1-3 所 示 。 


X fox, w) 





L2 人工 神 经 元 模型 图 1-3 多 层 神经 网 络 


以 上 架构 人 工 智 能 的 神经 网 络 方法 ,就 是 典型 的 连接 主义 的 方法 ,现在 称 为 深度 学 
习 的 方法 ,在 有 大 量 的 训练 数据 和 超大 计算 能 力 的 情况 下 ,在 工业 实践 中 被 证 明 是 有 
效 的 。 

这 里 需要 注意 : 深度 学 习 使 用 的 神经 网 络 , 本 质 上 是 一 个 函数 变换 的 数学 模型 ,和 生 
物 中 的 神经 元 与 神经 网 络 已 经 没有 什么 关系 了 。 

基于 人 工 神经 网 络 的 人 工 智能 技术 的 发 展 ,并 非 一 帆 风 顺 。 过 去 经 历 了 两 次 高 潮 和 
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两 次 低谷 。 

随 着 1957 年 罗 森 布 赖 特 提出 了 感知 机 (Perceptron) 的 概念 ,掀起 了 第 一 次 人 工 神经 
网 络 的 热潮 。 由 于 受 当 时 计算 机 的 计算 能 力 限制 ,20 世纪 70 年 代 进 入 了 低谷 。 

1986 年 , 随 着 霍 普 菲尔德 神经 网 络 与 BP 算法 的 提出 ,掀起 了 第 二 次 人 工 神经 网 络 
的 热潮 。 这 次 由 于 人 工 智 能 计算 机 的 研制 失败 ,20 世纪 90 年 代 再 次 进入 了 低谷 。 

2006 年 ,多 伦 多 大 学 的 Geoffrey Hinton 提出 了 深度 神经 网 络 和 训练 方法 。 

2011 年 ,深度 神经 网 络 在 TIMIT 语音 识别 上 实现 了 突破 。 

2013 4E ,深度 神经 网 络 在 图 像 识别 上 取得 了 重大 进 

2013 年 ,深度 学 习 被 列 为 ( 麻 省 理工 学 院 技术 评论 ) 的 十 大 突破 性 技术 之 首 。 

目前 ,人 工 神经 网 络 正 进入 第 三 次 热潮 。 回 顾 过 去 , 人们 发 现 主要 原因 是 当时 的 计 
算 机 的 计算 能 力 不 够 ,用 于 训练 的 数据 样本 量 不 足 , 造 成 期 望 与 实际 效果 之 间 有 较 大 差 
别 。 随 着 计算 硬件 技术 的 进步 , 云 计算 和 网 络 所 支持 的 计算 能 力 的 大 规模 提升 ,再 加 上 
基于 大 数据 的 机 器 学 习 的 算法 进步 ,基于 神经 网 络 的 人 工 智能 方法 得 到 复兴 。 





1.2.3 神经 网 络 的 复兴 


深度 学 习 (Deep Learning) 是 深度 神经 网 络 (Deep Neural Networks) 的 另 一 个 名 称 。 
深度 学 习 的 核心 是 深度 神经 网 络 的 设计 与 训练 ,采用 层级 更 深 、 参 数 规模 更 大 的 神经 
网 络 。 

深度 神经 网 络 的 兴起 在 于 三 位 领军 人 物 的 不 懈 追 求 。 他 们 是 Geoffrey Hinton( 多 伦 多 
大 学 教授 )、Yoshua Bengio( 蒙 特 利 尔 大 学 教授 ) 和 Yann LeCun( 纽 约 大 学 教授 ), 见 图 1-4。 
Geoffrey Hinton 参与 提出 了 反 向 传播 算法 BP,Yoshua Bengio 提出 了 Autoencoder 和 机 





(a) Geoffrey Hinton (b) Yoshua Bengio (c) Yann LeCun 


图 1-4 三 位 领军 人 物 
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器 翻译 的 GRU 等 方法 ,Yann LeCun 提出 了 用 卷 积 网 络 识 别 手写 体 的 方法 。 

这 次 深度 学 习 普 及 的 引发 点 始 于 2012 年 ,由 Geoffrey Hinton 指导 博士 生 Alex 
Krizhevsky 和 Ilya Sutskever 采用 深度 卷 积 网 络 (AlexNet) ,在 ILSVRC-2012 图 像 分 类 
(Image Classification) 挑 战 赛 的 突破 性 的 成 绩 , 使 准确 率 大 幅度 提升 。 


1.3, 机 器 学 习 


1.3.1 机 器 学 习 的 基本 原理 


深度 神经 网 络 是 机 器 学 习 (Machine Learning) 的 一 个 分 支 。 为 了 深入 理解 深度 学 
习 , 我 们 有 必要 对 机 器 学 习 的 背景 进行 介绍 。 

机 器 学 习 的 一 个 基本 定义 : 给 定 一 个 计算 机 任务 T 和 一 个 对 任务 工 的 性 能 度量 P. 
在 给 出 经 验 集 EE 的 前 提 下 ,计算 机 任务 工 在 性 能 度量 已 上 有 所 提升 。 这 个 利用 经 验 集 
E 提升 任务 工 的 性 能 己 的 方法 就 是 机 器 学 习 。 

一 般 机 器 学 习 的 原理 如 图 1-5 所 示 。 机 器 学 习 是 用 数据 训练 模型 ,用 模型 进行 预测 ， 
根据 反馈 产生 数据 ,更 新 模型 和 数据 。 所 以 ,机 器 学 习 包括 数据 .模型 与 算法 3 个 方面 。 


行动 
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1-5 机 器 学 习 的 原理 


自 2012 年 以 来 ,基于 深度 学 习 的 图 像 分 类 方法 AlexNet 在 ILSVRC 2012 比赛 中 的 
突破 性 表现 ,引起 了 各 方 关注 ,使 人 工 智能 得 到 新 的 发 展 。 

在 过 去 的 几 年 里 ,深度 学 习 在 解决 语音 识别 与 图 像 处 理 等 机 器 感知 问题 方面 ,表现 
优越 ,甚至 超过 人 类 的 水 平 。 目 前 ,深度 学 习 还 在 尝试 解决 自然 语言 理解 .推理 ,注意 和 
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记忆 (RAM) 等 机 器 认 知 相关 的 问题 。 
现在 的 业界 认为 实现 通用 人 工 智 能 (强人 工 智能 ) 的 一 种 途径 是 深度 学 习 和 深度 增 
强 学 习 。 


1.3.2 机 器 学 习 泛 化 能 力 


广义 上 讲 , 机 器 学 习 的 成 功 依赖 于 它 的 泛 化 能 力 (Generalization) 。 通 过 在 训练 数据 
上 的 学 习 , 然 后 能 够 推广 到 新 的 数据 集 上 的 能 力 称 为 泛 化 。 

泛 化 后 与 正确 的 分 类 结果 产生 的 误差 称 为 泛 化 误差 (Generalization Error,GE)。 用 
数学 公式 表示 为 

GE- AE + EE + OE 

Hop sir 2: (Approximation Error, AE) 是 指 由 于 模型 规模 方面 而 产生 的 误差 ， 
要 想 减 少 这 部 分 误差 ,需要 扩大 模型 规模 。 

估计 误差 (Estimation Error, EE) 是 指 由 于 数据 集 规模 而 产生 的 误差 ,要 想 减 少 这 部 
分 误差 ,需要 增加 可 用 数据 的 规模 。 

优化 误差 (Optimization Error,OE) 是 指 由 于 算法 设计 而 产生 的 误差 ,要 降低 这 部 分 
误差 ,需要 设计 更 优 的 算法 。 


1.3.3 大 数据 是 深度 学 习 的 基础 


传统 机 器 学 习 方法 主要 涉及 数据 、 模 型 和 算法 3 个 方面 。 传 统 机 器 学 习 方法 多 采用 
手工 或 人 为 的 特征 选取 , 随 着 训练 数据 规模 的 提高 ,这 种 方法 的 提升 效果 就 不 明显 了 。 
而 以 深度 学 习 为 代表 的 方法 , 随 着 训练 数据 规模 的 扩大 ,提升 效果 显著 ,大 大 超过 了 传统 
机 器 学 习 方 法 。 这 种 差异 在 语音 识别 .图 像 分 类 等 机 器 感知 类 的 任务 上 的 体现 尤其 显 
著 , 如 图 1-6 所 示 。 

神经 网 络 通过 扩展 网 络 结构 的 深度 ,扩大 规模 ,甚至 可 以 不 断 扩 展 下 去 ,而 且 扩 展 之 
后 所 带 来 的 效果 是 稳步 提升 的 。 通 过 规模 的 扩展 ,或 者 是 提升 网 络 的 深度 ,是 改进 深度 
学 习 效 果 的 途径 。 
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大 规模 神经 网 络 
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小 规模 神经 网 络 


传统 人 工 智能 算法 
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1-6 机 器 学 习 效果 与 数据 规模 之 间 的 关系 
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24, 深度 学 习 的 原理 


深度 学 习 (Deep Learning) 是 深度 神经 网 络 (Deep Neural Networks) 的 另 一 个 名 称 。 
深度 学 习 的 核心 是 深度 神经 网 络 的 设计 与 训练 ,采用 层级 更 深 、 参 数 规模 更 大 的 神经 
网 络 。 

神经 网 络 可 以 看 作 是 对 人 脑 的 智能 原理 的 一 个 数学 抽象 ,包括 神经 元 的 结构 和 神经 
元 的 连接 结构 。 其 中 ,神经 元 的 一 个 建 模 是 逻辑 回归 单元 。 

深度 学 习 通 过 单一 的 算法 学 习 特 征 表 示 。 逮 辑 回归 是 最 常用 的 分 类 算法 ,也 是 深度 
学 习 的 基本 组 成 单元 。 


2.1.1 人 工 神经 元 


人 工 神 经 元 可 以 理解 为 一 组 输入 加 权 释 加 ,再 经 过 一 个 连续 可 导 的 非 线性 变换 进行 
输出 。 为 了 叙述 方便 ,以 下 人 工 神经 元 简称 神经 元 。 


1. 逻辑 斯 提 回 归 单 元 

逻辑 斯 提 回 归 单 元 (Logistic Regression Unit) 是 最 简单 的 人 工 神 经 元 结构 。 单 个 逻 
辑 斯 提 回 归 单 元 可 以 进行 二 类 分 类 ,多 个 逻辑 斯 提 回 归 单 元 的 组 合 , 就 可 以 完成 复杂 的 
分 类 工作 。 多 层 逻 辑 斯 提 回 归 单 元 在 实际 中 表现 出 更 好 的 性 能 。 

单个 逻辑 斯 提 回 归 单 元 的 数学 表达 式 如 下 : 
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2-1 JJO 函 数 的 形状 


其 图 形 是 一 条 S 形 曲线 (Sigmoid Curve)。 人 逻辑 函数 因 其 曲线 形状 为 S 形 ,所 以 ,也 
被 称 为 SO 函数 或 Sigmoid() 函 数 。Sigmoid() 函 数 的 取 值 为 (0,1)。 


2. 激活 函数 

f0 〇 函数 也 称 为 人 工 神经 元 的 激活 函数 (Activation Function or Trigger Function), 
当 0) 函数 采用 逻辑 斯 提 函 数 时 , 则 人 工 神经 元 就 是 逻辑 斯 提 回 归 单 元 。 除 了 好 辑 斯 提 
回归 单元 的 形式 ,人 工 神经 元 还 有 其 他 形式 。 例 如 ,函数 可 以 是 tanh() 函 数 、Softmax() 
函数 和 ReLU O pi Zt CRectified Linear Units) 等 。 

双 曲 正切 函数 tanh() ,其 数学 表达 式 如 下 : 


et —e 


ete” 
tanh() RMI Sigmoid() 函 数 是 同类 的 ,只 是 取 值 变 为 (一 1.1)。 
ReLU() 函 数 的 数学 表达 式 如 下 : 
ReLU (x) = max (x, 0) 





tanh (x)= 
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ReLU() 还 有 其 推广 形式 , 称 为 PReLU(Parametric ReLU)。PReLU() 的 数学 表达 
式 如 下 ,其 中 a 20.01; 
er ”如果 zr 二 0 
+ WW +> O 

Softmax() 函 数 ( 又 称 为 归 一 化 指数 函数 ) 多 用 于 输出 一 个 识别 对 象 的 概率 分 布 。 
Softmax O 函数 的 数学 表达 式 如 下 : 


Peruco- | 





2.1.2 多 层 人 工 神经 网 络 


将 多 个 人 工 神经 元 排列 连接 起 来 ,就 形成 了 多 层 人 工 神经 网 络 。 图 2-2 给 出 了 一 个 
二 层 神经 网 络 结构 的 例子 。 





22 二 层 神经 网 络 


该 神经 网 络 分 为 输入 层 .隐藏 层 和 输出 层 。 输 入 层 有 3 个 输入 (ze，xzi，xzaz) ,中间 有 
一 个 隐藏 层 , 输 出 层 有 2 个 输出 (y ,ys) ,共有 5 个 神经 元 。 

该 网 络 的 连接 结构 采用 多 层 全 连接 (Fully Connected Network. FCN) 的 模式 ,是 人 
工 神经 网 络 中 最 简单 的 连接 方式 。 

为 了 叙述 方便 ,以 下 人 工 神 经 网 络 简称 神经 网 络 。 





ee ese ??* 


2.1.3 神经 网 络 训练 


如 果 激 活 函 数 f(z) 是 一 个 连续 可 导 函 数 ,如 Sigmoid() 函 数 ,那么 神经 网 络 本 质 上 
是 一 个 由 输入 和 内 部 权重 作为 变量 的 连续 可 导 函 数 。 

神经 网 络 的 训练 过 程 属于 机 器 学 习 的 监督 学 习 (Supervise Learning), 即 训练 数据 上 
都 有 相应 的 标签 (Label) 。 神 经 网 络 对 具有 标签 的 训练 样本 进行 学 习 , 从 而 确定 网 络 的 
权重 参数 ,然后 用 训练 得 到 网 络 ,对 训练 样本 集 外 的 数据 进行 标签 的 预测 。 

神经 网 络 训练 的 本 质 , 就 是 找到 相应 的 内 部 权重 ,使 得 在 训练 数据 (样本 ) 输 入 到 网 
络 后 ,网 络 的 实际 输出 与 预期 输出 ( 即 标签 ) 之 间 差 异 最 小 。 


l. 损失 函数 最 小 化 

神经 网 络 的 输出 结果 会 与 实际 所 对 应 的 标签 之 间 存在 差别 ,可 以 引入 相似 度 度量 函 
数 ,来 表示 这 种 差异 , 称 为 损失 函数 (Loss()) ,成 本 函数 (Cost()) 或 代价 函数 。 

神经 网 络 训练 的 目标 是 使 损失 函数 最 小 ,所 以 ,训练 过 程 是 损失 函数 的 求 最 小 化 过 
程 。 损 失 函 数 可 以 通过 交叉 炉 的 方式 ,来 计算 损失 。 其 他 的 损失 函数 形式 还 有 均 方 求 
和 、 均 方 根 等 度量 函数 ,但 是 这 类 函数 作为 损失 函数 的 缺点 是 它们 属于 非 凸 函数 ,存在 很 
多 极 小 值 点 。 

交叉 炉 形 式 的 损失 函数 表示 如 下 : 

Hy (y)=— J, yiln y, 

其 中 ,y 表示 训练 样本 对 应 的 标签 ,y 表示 神经 网 络 的 输出 。 

实际 中 还 会 在 损失 函数 中 加 上 一 些 正则 项 (Regularizer) 或 惩罚 项 (Penalty Term), 
该 过 程 称 为 正则 化 (Regularization) 。 目 的 是 为 了 防止 过 学 习 (Overrfitting)。 常 见 的 惩 
罚 项 是 a2) 2) IW | 。 


2. 反 向 传播 算法 

这 里 给 出 多 层 神 经 网 络 的 一 种 更 加 抽象 表示 ,这 种 表示 抽象 了 每 层 的 基本 特征 ,如 
图 2-3 所 示 。 

根据 损失 函数 的 性 质 和 链 式 求 导 法 则 ,可 以 反 向 逐 层 计算 损失 函数 对 权重 的 导数 ， 
调整 权重 最 小 化 损失 函数 。 这 个 方法 称 为 反 向 传播 算法 (Back-Propagation Algorithm), 
多 层 神经 网 络 的 反 向 传播 的 过 程 如 图 2-4 所 示 。 
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图 2-4 多 层 神 经 网 络 的 反 向 传播 方法 


3. 随机 梯度 下 降 法 

随机 梯度 下 降 方法 (Stochastic Gradient Descent, SGD ) 是 最 常用 的 权重 调节 方法 ， 
基本 方法 如 下 。 

步骤 1: 随机 初始 化 每 个 神经 元 的 输入 权重 和 偏差 (Weights and Bias) 。 

步骤 2: 选取 一 个 随机 样本 (Samples)。 

步骤 3: 根据 神经 网 络 的 输出 结果 ,从 最 后 一 层 开始 , 逐 层 计算 每 层 权 重 的 偏 导数 。 

步骤 4: 逐 层 调整 每 层 的 权重 ,产生 新 的 权重 值 。 

返回 到 步骤 2 ,继续 随 机 选取 下 一 个 样本 。 

4. 实际 训练 过 程 

多 层 神 经 网 络 的 实际 训练 过 程 是 将 样本 数据 "分 批 训练 ", 同 时 采用 随机 梯度 下 降 法 
和 反 向 传播 方法 , 逐 层 调整 权重 参数 。 

训练 过 程 中 的 一 些 术语 解释 如 下 。 

(1) 先 将 整个 训练 集 分 成 多 个 同样 大 小 的 子 集 ,每 个 子 集 称 为 一 个 批 次 (Batch) , 子 
集 的 大 小 ( 即 样本 数目 ) 由 参数 批 次 大 小 (Batch Size) 控 制 。 

(2) 使 用 随机 梯度 下 降 法 ,其 中 每 一 步 可 以 使 用 不 止 一 个 样本 ,这 称 为 迷你 批 次 
(Minibatch)。 每 次 迭代 所 用 的 样本 数目 称 为 迷你 批 次 大 小 (Minibatch Size) 。 当 迷你 批 
次 大 小 为 1 时 ,就 是 普通 的 随机 梯度 下 降 。 


s 
q 12 p 
e s 


ee ese» °° 


(3) 每 个 批 次 的 数据 被 依次 送 入 网 络 进行 训练 ,训练 完 一 个 批 次 , 被 称 为 一 次 迭代 
(Iteration) 。 

(4) 训练 集 的 所 有 训练 样本 都 被 送 入 网 络 训练 ,完成 一 次 训练 的 过 程 , 称 为 一 个 时 代 
(Epoch). 

(5) 时 代 记 录 了 整个 训练 集 被 反复 训练 的 次 数 ,而 迭代 记录 网 络 权重 参数 的 调整 
次 数 。 

和 迭代 和 时 代 之 间 的 数量 关系 由 批 次 大 小 和 训练 集 大 小 决定 。 


5. 自 编码 器 

1) 自 编码 器 初始 化 权重 

自 编码 器 (Autoencoder) 主 要 用 于 多 层 神经 网 络 参数 的 初始 化 。 采 用 随机 化 网 络 参 
数 的 方法 ,会 导致 网 络 收敛 慢 的 问题 。 而 采用 自 编码 器 方法 ,在 一 些 训练 过 程 中 证 明 是 
有 效 的 。 自 编 码 器 的 结构 如 图 2-5 所 示 。 


图 2-5 自 编码 器 的 结构 


自 编码 器 的 功能 是 神经 网 络 的 输出 尽 可 能 地 还 原 输入 的 特征 。 这 样 可 以 对 多 层 神 
经 网 络 的 每 一 层 逐 层 去 构造 自 编码 器 ,用 训练 出 来 的 权重 作为 多 层 神经 网 络 每 一 层 的 初 
始 权 重 。 

自 编码 器 初始 化 多 层 神经 网 络 的 参数 方法 描述 如 下 。 

CD 预 训练 : 使 用 无 监督 的 数据 ,对 每 一 层 进行 预 训练 。 

(2) 微调 步骤 1: 对 最 后 的 输出 层 用 监督 学 习 的 标记 数据 ,进行 训练 。 

(3) 微调 步骤 2: 使 用 标记 数据 ,对 整个 网 络 进行 反 向 传播 训练 。 
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2) 降 噪 自 编码 器 

降 噪 自 编码 器 (Denoising Autoencoder,DA) 的 原理 是 人 工 破坏 或 者 屏蔽 部 分 输入 ， 
输入 到 自 编码 器 进行 训练 ,让 自 编码 器 学 到 数据 间 的 关联 性 。 实 际 操 作 中 ,屏蔽 是 随机 
进行 的 ,所 以 ,神经 网 络 最 终 学 到 的 是 通过 部 分 数据 联想 到 缺失 数据 的 能 力 。 

举 个 例子 ,输入 一 个 9 维 的 数据 ,通过 屏蔽 最 后 一 维 , 比 如 将 第 9 维 数据 ( 置 零 ), 得 
到 一 个 8 维 十 0 的 9 维 数据 。 将 此 数据 经 过 一 个 9 一 3 一 9 的 神经 网 络 处 理 , 得 到 新 的 9 
维 数据 。 训 练 要 求 新 的 9 维 数据 和 没 被 屏蔽 前 的 输入 数据 一 样 。 这 样 , 自 编码 器 至 少 完 
成 了 这 样 一 件 事 : 给 定 前 8 维 ,推测 最 后 一 维 。 

这 种 推测 不 是 简单 的 “线性 插值 ”, 因 为 神经 网 络 的 每 层 输出 ,都 要 通过 激活 函数 , 进 
行 了 一 次 非 线性 函数 变化 。 所 以 ,这 种 推测 肯定 不 是 线性 插值 的 ,而 是 一 种 更 复杂 的 数 
值 插值 方法 。 

具体 参考 链接 http://deeplearning. net/tutorial/dA. html, 


6. 训练 的 小 技巧 

这 些 神 经 网 络 训练 调试 的 小 技巧 源 于 Le Quoc V 的 教程 。 因 为 当时 还 没有 完整 成 
熟 的 深度 学 习 框 架 , 很 多 情况 下 需要 自己 去 调整 优化 。 有 了 成 熟 的 框架 后 ,有 些 问题 就 
不 用 太 关 心 了 。 

(1) 用 数值 近似 的 方法 检查 反 向 传播 算法 的 梯度 计算 的 正确 性 (依赖 选择 的 框架 ) 。 

(2) 随机 初始 化 参数 是 很 重要 的 。 一 个 好 的 方法 是 参数 初始 化 采用 高 斯 分 布 或 均匀 
分 布 。 有 时 调整 一 下 初始 化 的 协 方差 又 会 有 帮助 (依赖 选择 的 框架 )。 

(3) 确保 随机 初始 化 不 要 “饱和 ”网 络 。 这 意味 着 绝 大 多 数 时 间 , 神 经 元 的 输出 为 
0. 2 一 0.8。 如 果 神 经 元 输出 太 多 的 0 或 1 ,梯度 值 会 比较 小 ,训练 时 间 会 比较 长 。 

(4) 能 够 有 效 地 监控 训练 过 程 ( 依 赖 选择 的 框架 )。 

(5) 选取 好 的 学 习 率 。 建 议 学 习 率 为 0.1 或 0.01。 学 习 率 过 大 ,参数 值 改变 过 于 激 
进 ;学 习 率 过 小 ,参数 值 改 变 过 于 保守 。 

(6) 选取 好 的 超 参数 (如 层 数 、 每 层 神经 元 数目 ) 是 一 个 当前 研究 的 问题 。 一 种 好 的 
方法 是 采用 交叉 验证 (Cross Validation) 。 选 取 一 个 验证 集 ,与 训练 集 完全 无 关 。 如 果 超 
参数 在 训练 集 上 表现 好 ,而 在 验证 集 上 表现 不 佳 ,这 个 模型 就 是 过 拟 合 (Overfits) : 模型 
有 太 多 的 自由 度 并 记 住 了 训练 集 的 特征 ,但 是 无 法 推广 。 如果 模型 的 超 参数 在 训练 集 上 
表现 极 差 ,这 就 是 从 拟 合 (Underfits) ; 模型 没有 足够 的 自由 度 , 应 该 增加 隐藏 层 数 或 者 
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神经 元 的 数目 。 另 外 ,在 训练 集 上 表现 不 佳 , 也 可 能 是 学 习 率 选 取 不 好 (比较 重要 ) 。 

(7) 选取 好 的 超 参数 ,也 可 以 使 用 Gridsearch 方法 ,随机 搜索 或 贝 叶 斯 优化 。 在 
Gridsearch 方法 中 ,所 有 的 组 合 都 会 尝试 ,并 用 验证 集 进行 交叉 检验 。 如 果 Gridsearch 
成 本 太 高 ,可 以 用 随机 搜索 来 产生 配置 。 贝 叶 斯 优化 检查 先前 的 超 参数 的 网 络 组 合 , 找 
出 一 个 拟 合 函 数 , 然 后 选择 一 个 最 大 化 效用 函数 的 超 参数 组 合 。 

(8) 神经 网 络 需 要 长 时 间 训 练 ,需要 花费 时 间 去 优化 代码 速度 。 例 如 ,用 快速 矩阵 矢 
量 库 、 后 向 传播 算法 的 矢量 化 版 本 (依赖 选择 的 框架 ) 。 

(9) 可 以 采用 单 精 度 而 不 是 用 双 精 度 来 存放 参数 。 这 可 以 减少 一 半 的 存储 空间 ,而 
不 会 损害 神经 网 络 的 性 能 。 缺 点 是 用 数值 近似 做 梯度 正确 性 的 检查 会 复杂 些 。 

(10) 神经 网 络 的 一 个 不 方便 之 处 是 目标 函数 一 般 不 是 非 凸 函数 。 这 意味 着 我 们 获 
得 的 最 小 值 ,很 可 能 是 局 部 最 小 而 非 全 局 最 小 。 所 以 ,神经 网 络 对 随机 初始 化 比较 敏感 。 
学 习 过 程 的 其 他 随机 化 方面 也 会 影响 结果 。 例 如 ,学 习 率 的 选择 ,迭代 样本 的 不 同 顺序 
会 产生 不 同 的 优化 参数 。 

(11) 在 许多 情况 中 ,使 用 较 大 的 迷你 批 次 是 一 个 好 方法 ,因为 可 以 降低 样本 的 噪声 
(计算 多 个 样本 的 平均 值 的 例子 )。 另 外 ,速度 更 快 ,因为 矩阵 向 量 库 用 更 大 的 矩阵 工作 
会 更 好 。 


2.2) 典型 的 神经 网 络 架 构 


经 过 不 断 的 实验 测试 ,人 们 发 现 不 同 的 神经 网 络 架 构 适合 处 理 不 同 的 任务 。 卷 积 神 
经 网 络 适用 于 图 像 处 理 , 因 为 这 种 网 络 结构 适合 图 像 处 理 的 不 变性 ,例如 猫 的 图 像 ,平移 
旋转 处 理 后 依然 是 猫 。 循 环 神经 网 络 适合 进行 序列 预测 的 任务 ,如 语音 识别 .诗词 填空 
等 语音 语言 的 处 理 。 因 为 长 短期 记忆 循环 网 络 训 练 快 ,已 经 在 语音 识别 中 大 规模 应 用 。 


2.2.1 卷 积 神经 网 络 


对 于 高 维 数据 如 图 像 (200X200 像素 ) ,如 果 第 一 层 是 全 连接 的 话 ,这 意味 着 第 一 个 
隐藏 层 的 每 个 神经 元 都 有 40 000 个 输入 权重 。 为 了 效率 更 高 ,可 以 强制 神经 元 的 输入 权 
重 的 数量 ,强制 输入 只 和 局 部 的 神经 元 有 连接 。 这 样 形成 的 网 络 又 称 为 局 部 网 络 , 或 者 
局 部 连接 网 络 。 
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权重 共享 (Weight Sharing) 是 一 种 简单 的 局 部 网 络 形成 方法 ,如 图 2-6 所 示 。 这 种 
权重 共享 等 效 于 信号 处 理 领域 中 的 卷 积 运算 (Convolution)。 








图 2-6 权重 共享 


实际 中 ,每 一 个 卷 积 层 后 紧 跟着 一 个 下 采样 层 , 例 如 采用 最 大 池 化 (Max-pooling) 方 
法 完成 下 采样 。 最 大 池 化 层 的 操作 ,就 是 在 过 滤器 之 后 ( 卷 积 之 后 ) ,计算 出 卷 积 层 神经 
元 输出 的 最 大 值 。 最 大 池 化 的 操作 原理 如 图 2-7 所 示 。 





E 


卷 积 操 作 就 是 在 输入 信号 上 使 用 过 滤器 (Filter) ,而 过 滤器 的 参数 就 是 一 组 权重 值 。 
所 以 ,这 种 局 部 区 域 的 权重 共享 的 神经 网 络 ,又 称 为 卷 积 神经 网 络 (Convolutional Neural 
Network,CNN) 。 一 个 卷 积 神经 网 络 的 工作 原理 如 图 2-8 所 示 。 


图 27 最 大 池 化 操作 





图 2-8 卷 积 神经 网 络 


最 新 CNN 进展 还 包括 LCN (Local Contrast Normalization), LCN 操作 在 最 大 池 化 
层 之 后 ,其 目标 是 减 去 平均 值 , 除 以 标准 差 。 这 个 操作 允许 亮度 不 变性 ,对 于 图 像 识 别 用 
处 很 大 。 


2.2.2 循环 神经 网 络 


对 于 时 间 序 列 的 预测 是 一 个 重要 问题 。 循 环 神经 网 络 (Recurrent Neural Network, 
RNN) 的 每 一 个 时 间 步 处 理 时 ,权重 共享 。 一 个 单 向 RNN 如 图 2-9 所 示 。 





2-9 单 向 RNN 


RNN 会 在 时 间 域 上 进行 反馈 操作 ,具体 来 说 ,有 两 种 反馈 方式 : 一 种 是 上 一 时 刻 或 
前 面 若干 时 刻 的 输出 会 被 作为 输入 的 一 部 分 与 真正 的 输入 一 起 构成 总 的 输入 量 , 即 前 向 
方式 ; 另 一 种 是 后 面 若 干 时 刻 的 输出 会 被 作为 输入 的 一 部 分 与 真正 的 输入 一 起 构成 总 输 
入 量 , 即 后 向 方式 。 如 果 前 向 方式 和 后 向 方式 都 存在 ,那么 就 被 称 为 双向 模式 。 一 个 双 
向 RNN 如 图 2-10 所 示 。 

双向 网 络 这 样 的 做 法 ,就 是 采用 两 个 单 向 网 络 结构 ,这 样 做 增加 了 复杂 性 ,但 是 充分 
利用 了 输入 的 前 后 相关 性 ,识别 的 准确 率 也 提高 了 。 单 向 RNN 的 优点 是 结构 简单 ,可 以 
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输出 层 
后 向 隐 层 m 
前 向 隐 层 
输入 层 
2-10 双向 RNN 
完成 实时 的 处 理 功 能 。 


2.2.8 长 短 时 记忆 循环 网 络 


长 短 时 记忆 循环 网 络 (Long-Short Term Memory Recurrent Network. LSTM) 是 
RNN 的 一 个 改进 。 相 比 于 RNN,LSTM 增加 了 一 个 主 输入 单元 和 其 他 3 个 辅助 的 门限 
输入 单元 : 输入 门 (Input Gate) .记忆 单元 (Memory Cell) .遗忘 门 (Forget Gate) 及 输出 
门 (Output Gate) 。 

输入 门 .遗忘 门 .输出 门 和 记忆 单元 组 合 起 来 ,大 大 提升 了 RNN 处 理 远 距 离 依赖 问 
题 的 能 力 , 解 决 了 RNN 的 梯度 值 消失 问题 (Vanishing Gradient Problem) ,无 法 学 习 长 程 
的 相关 性 问题 。 

典型 的 LSTM 结构 是 一 个 主 输入 单元 和 其 他 3 个 辅助 的 门限 输入 单元 。3 个 辅助 
的 门限 输入 单元 分 别 控制 网 络 是 否 输入 ,是 否 存 储 输入 以 及 是 否 输出 。 这 样 一 来 就 可 以 
寄存 时 间 序 列 的 输入 。 在 训练 过 程 中 会 利用 后 向 传播 的 方式 进行 。 

如 图 2-11 所 示 ,其 中 ,输入 门 控制 是 否 输入 ,遗忘 门 控 制 是 否 存储 ,输出 门 控制 是 否 
输出 。 

假设 在 t+ 时 刻 的 输入 是 zx,,m, Bm, 和 上 三 的 线性 组 合 。 
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图 2-11 长 短 时 记忆 单元 


mea = aO mua HBO ha) 
在 t 时 刻 的 隐 含 层 的 状态 h,, 计算 如 下 : 
h, = YO tanhon,) 
其 中 , h Mm, 会 在 下 一 个 时 间 步 继续 使 用 。 a y 形式 如 下 : 
a(t)= gı Ghia ma) 
BG» gs Gr hia moa) 
Y(t) = gs Go ha m) 
其 中 , apy 也 被 称 为 输入 门 、 记 忆 门 和 输出 门 ,分 别 控制 了 输入 、 记 忆 和 输出 到 下 一 个 
时 间 。 
LSTM 最 早 是 由 Sepp Hochreiter 和 Jürgen Schmidhuber 提出 。 


2.2.4 门 控 循环 单元 循环 网 络 


门 控 循 环 单元 (Gated Recursive Unit,GRU) 是 由 Cho 等 人 在 LSTM 的 基础 上 提出 
的 简化 版 本 ,也 是 RNN 的 一 种 扩展 。GRU 的 结构 如 图 2-12 所 示 。 

GRU 单元 只 有 两 个 门 , 即 重 置 门 和 更 新 门 。 

CD 重 置 门 (Reset Gate); 如 果 重 置 门 关闭 ,会 忽略 掉 历史 信息 , 即 历史 不 相干 的 信 
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2-12 GRU 的 结构 


息 不 会 影响 未 来 的 输出 。 重 置 门 : 
r, = o(W, * [hoa z, J) 
其 中 , o 为 SigmoidO 函数 。 
(2) 更 新 门 (Update Gate); 将 LSTM 的 输入 门 和 遗忘 门 合并 ,用 于 控制 历史 信息 对 
当前 时 刻 隐 层 输 出 的 影响 。 如 果 更 新 门 接近 1, 会 把 历史 信息 传递 下 去 。 更 新 门 : 
z, = o (W, [hi,z,]) 
Jü, o H SigmoidO PIRE, 
隐 含 层 节点 状态 更 新 : 
h, = tanh(W + [r hisz]) 
其 中 ,tanh() 为 双 曲 正切 函数 ,输出 值 为 (一 1,1) 。 
输出 ， 
h = (01—2)* had z* h, 
GRU 论文 最 早 是 用 于 研究 机 器 翻译 (Machine Translation) ,在 语音 识别 中 也 被 证 明 
很 有 用 。GRU 和 LSTM 在 实用 中 ,很 多 任务 性 能 相当 ,但 是 GRU 参数 少 ,运算 更 简单 
也 更 快 ,需要 的 训练 数据 少 。 如 果 拥 有 的 数据 量 足 够 多 ,LSTM 可 以 充分 发 挥 表达 能 力 
强 的 优点 。 
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1. 深度 学 习 的 语音 识别 

基于 深度 学 习 的 语音 识别 的 通用 流程 包括 语音 输入 环节 ,深度 神经 网 络 的 结构 和 辅 
助 语言 模型 。 

1) 语音 输入 环节 的 处 理 

对 于 语音 输入 环节 ,通常 有 两 种 处 理 方式 。 

COD 基于 语音 的 时 频谱 图 (Spectrogram)。 对 于 每 一 段 语音 ,要 通过 传 里 叶 变换 ,将 
其 每 个 时 间 段 上 的 频谱 展示 出 来 ,然后 形成 一 个 横 轴 为 时 间 、 纵 轴 为 频率 ,以 不 同 颜色 区 
分 对 应 频率 幅度 的 频谱 图 。 

(2) 直接 输入 原始 波形 ,然后 对 波形 进行 时 间 域 上 的 卷 积 变换 。 也 就 是 利用 滤波 器 
组 (Filter Banks) 提 取 不 同 频率 上 的 信号 ,从 而 得 到 对 应 的 时 间 - 频 率 关系 。 

2) 深度 神经 网 络 的 结构 

对 于 以 语音 的 频谱 特征 为 输入 的 神经 网 络 而 言 ,有 3 种 通常 的 神经 网 络 结构 。 一 种 
是 采用 CNN, 即 卷 积 神经 网 络 的 方法 。 另 一 种 是 利用 RNN, 即 循环 神经 网 络 的 方法 。 
RNN 的 一 种 替换 方式 是 LSTM. 即 长 短 时 记忆 循环 网 络 。LSTM 的 一 个 简化 版 本 是 
GRU。 最 后 一 种 是 利用 FCN(Fully Connected Network) zX DNN, 即 全 连接 网 络 。 

3) 辅助 语言 模型 

N-gram 语言 模型 (N-gram Language Models) 主 要 是 对 前 面 的 神经 网 络 输出 进行 进 
一 步 的 处 理 优化 。N-gram 考虑 了 前 后 连续 N 个 词语 之 间 的 相互 联系 ,通过 统计 词 频 的 
方式 ,近似 地 计算 前 后 若干 词 一 起 按 序 出 现 的 概率 ,最 终 得 出 整个 语句 出 现 的 概率 。 

2. 混合 模型 或 合金 模型 

过 去 ,利用 高 斯 混合 模型 (Gaussian Mixture Model, GMM) 以 及 隐藏 马尔 可 夫 模 型 
(Hidden Markov Model, HMM) 实现 了 大 词汇 量 级 下 的 连续 语音 识别 (Large 
Vocabulary Continuous Speech Recognition, LVCSR), f£ fti Hj HMM 和 GMM 混合 
方案 ,其 中 , HMM 用 来 规范 时 间 的 变化 .GMM 用 来 计算 HMM 之 中 各 个 组 合 的 可 
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能 性 。 

深度 神经 网 络 (DNN) 可 以 与 隐藏 马尔 可 夫 模 型 上下文 相 关 模 型 (Context- 
dependent Phone Models), N-gram 语言 模型 和 维特 比 搜索 算法 (Viterbi Search 
Algorithms) 进 行 混合 使 用 。 

尽管 可 以 采用 混合 方法 来 构建 语音 识别 引擎 。 但 是 ,混合 模型 一 般 比 较 复杂 ,需要 
一 套 精致 的 训练 方法 ,以 及 相当 多 的 专业 知识 来 帮助 搭建 模型 。 

3. CTC 方法 

CTC(Connectionist Temporal Classification) 称 为 连接 主义 的 时 间 分 类 。 

CTC 最 早 是 由 Alex Graves 等 人 提出 ,用 来 解决 找到 概率 最 高 的 标签 序列 ,解决 语 
音 文件 训练 中 的 标记 问题 。CTC 模型 描述 如 下 。 

输入 : 一 个 m 维 的 时 间 序 列 输入 z = (ncm c) ,其 中 zx € R”, 

输出 : 一 个 序列 z= (netz ,zs € L. 其 中 工 是 标签 集 ,u 达 +, 因此 输入 输出 不 对 
齐 。 

分 类 器 : 给 定 输入 ,得 到 输出 。 

h: (R")' L° 
数据 集 S: 一 个 由 许多 (z,z) 组 成 的 集合 ,包含 了 指定 的 输入 和 期 望 的 输出 。 


分 类 指标 : fi LER. S) — L 


2 <r,z5€S 
2Z 是 S 中 的 标签 总 数 ,ED(h(zx), x) 是 编辑 距离 : 通过 插入 、 删 除 、 替 换 将 h(x) 变 为 
z 的 最 少 操 作 数 。 
CTC 模型 的 详细 数学 推导 , 见 AlexGraves 的 论文 : 


AlexGraves, Santiago Fernández. Faustino Gomez. and Jürgen Schmidhuber. 


ED(A Gr) sz) 


Connectionist Temporal Classification; Labelling Unsegmented Sequence Data with 


Recurrent Neural Networks. ICML 2006. 


4. 谷歌 公司 的 CLDNN 模型 

从 2012 年 开始 ,深度 神经 网 络 在 连续 语音 识别 方面 也 取得 了 巨大 成 功 。 最 近 一 段 
时 间 , 卷 积 神经 网 络 和 循环 网 络 (LSTM) 的 实现 效果 又 优 于 深度 神经 网 络 (DNN)。 不 过 
这 几 种 神经 网 络 各 有 特点 ,所 以 也 各 有 各 的 局 限 之 处 。 

如 果 把 这 几 种 网 络 有 机 地 组 合 到 一 个 统一 的 框架 下 ,性 能 可 以 再 次 得 到 提升 。 谷 歌 
D 
x 22 p 
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团队 针对 现 有 的 几 种 神经 网 络 类 型 : 卷 积 神经 网 络 、 循 环 神经 网 络 、 深 度 神经 网 络 , 进 一 
步 提 出 了 一 种 新 的 整合 模型 CLDNN(CNN 十 LSTM 十 DNN) ,在 语音 识别 方面 获得 了 新 
的 提升 。 

CLDNN 是 以 原始 波形 为 直接 输入 的 网 络 结构 , 它 主要 结合 了 卷 积 神经 网 络 
(CNN) ,循环 神经 网 络 (LSTM) 和 深度 神经 网 络 (DNN)。 当 输入 信号 进行 时 间 域 的 卷 积 
操作 之 后 ,输出 数据 再 进行 一 次 频率 域 的 卷 积 操作 ,以 减少 频谱 的 变化 ,之 后 再 通过 三 层 
循环 网 络 , 最 后 再 通过 一 层 全 连接 网 络 。 训 练 过 程 中 ,时 间 卷 积 层 和 其 他 层 会 一 起 进行 
训练 。 

CLDNN 的 具体 组 成 主要 分 为 3 部 分 ,如 图 2-13 所 示 。 

第 一 部 分 是 频率 建 模 ,采用 卷 积 神经 网 络 ， 




















输出 
输入 数据 是 以 时 间 为 下 标的 连续 向 量 。 
第 一 部 分 分 为 两 层 : 深度 D 

. 神经 网 络 

第 一 层 是 9X9 的 频率 卷 积 核 (Filter) 。 D 

第 二 层 是 3X3 的 卷 积 核 。 i 














分 别 进行 卷 积 ,以 减少 频率 的 变化 种 类 , 采 L pras] 
J3E ERE CNon-overlapping) J Rš X ili. ik Max | 循环 神经 ! 


网 络 
pooling) R. L — 
第 二 部 分 :二 层 循 环 网 络 (LSTM) ,采用 截 






























































断 的 BPTT(Back-Propagation Through Time) RAN 
算法 ,展开 20 个 时 间 步 。 为 了 保证 连续 识别 过 c 
程 中 只 分 析 过 去 的 信息 ,不 识别 未 来 的 信息 , 输 ERR I 
入 中 r=0。 : 
第 三 部 分 :二 层 深度 神经 网 络 , 很 容易 分 别 WA 
出 高 阶 特征 ,从 而 将 数据 分 类 。 Pee 


LSTM 对 语 料 进 行 单 帧 ( 某 特定 时 刻 的 音 
频 信息 ) 特 征 分 析 , 但 是 分 析 获 得 的 特征 是 有 限 的 。 而 一 些 未 分 析出 的 高 阶 信息 可 以 帮 
助人 们 更 好 地 识别 上 下 文 关 系 。CNN 可 以 分 析出 这 些 高 阶 特征 ,所 以 可 以 将 两 者 组 合 。 
相 比 其 他 网 络 结构 ,CLDNN 的 两 处 改进 如 下 。 
(1) 将 输入 中 的 短 时 特征 传输 给 LSTM 层 。 
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(2) 将 CNN 的 输出 传输 给 LSTM 和 DNN, 以 获得 更 多 的 特征 数据 。 

在 LSTM 中 , 从 输入 到 输出 的 映射 网 络 不 深 , 意 味 着 没有 中 间 隐 藏 的 非 线性 层 。 若 
中 间 变 量 数 减少 , 则 模型 会 更 加 高 效 ,输出 会 更 容易 预测 。 这 可 以 通过 LSTM 层 后 加 
DNN 实现 。 

实验 中 采用 了 3 组 不 同 的 数据 作为 测试 集 。 第 一 种 是 200h 的 小 语料库 。 第 二 种 是 
2000h 的 大 语料库 ,不 带 噪声 。 第 三 种 是 2000h 的 大 语料库 ,人 为 加 入 了 噪声 。 测 试 的 结 
果 表 明 CLDNN 的 健壮 性 不 错 , 均 取 得 了 4% 一 5% 的 性 能 提升 。 


5. 纯 DNN 模型 
深度 学 习 采 用 通用 的 神经 网 络 来 替代 复杂 的 、 多 维度 的 机 器 学 习 方法 。 这 些 神 经 网 
络 经 过 训练 以 后 可 以 用 来 优化 可 微分 的 代价 函数 或 损失 函数 (Loss/Cost Function), iX 
种 方法 已 经 在 语音 识别 上 取得 巨大 的 成 功 ,被 称 为 "纯正 ?的 DNN 方法 。 
只 要 拥有 了 相当 多 的 训练 数据 和 足够 的 计算 资源 ,就 可 以 构建 一 个 高 水 准 的 大 词汇 
量 连续 语音 识别 系统 。 
1) 百度 公司 的 DeepSpeech2 
百度 公司 的 DeepSpeech2 的 方法 是 比较 典型 的 语音 识别 的 纯 深度 神经 网 络 结构 。 
DeepSpeech2 采用 5 一 9 层 的 网 络 , 其 中 隐 含 层 有 1 一 7 层 。 网 络 架 构 包 括 一 到 多 个 卷 积 
层 网 络 ,多 个 ( 单 向 或 双向 ) 循 环 网 络 ,一 个 全 连接 网 络 (FCN) ,一 个 softmax 层 网 络 。 
DeepSpeech2 的 特点 如 下 。 
(1) 输入 为 频谱 图 ;英文 输出 为 {a, b. c, ++, z, space, apostrophe, blank) ,中 文 输 
出 为 {罗马 字母 表 ,6000 个 汉字 }。 
(2) 采用 BatchNorm(Batch Normalization) 方法 ,加 速 收敛 。 
(3) 采用 SortaGrid 方法 ,保证 CTC 的 平稳 性 ( 短 句 优先 训练 ) 。 
CD RH GRU., GRU 和 LSTM 的 准确 性 相差 不 大 ,但 GRU 运算 更 快 。 
(5) 采用 Lookahead Convolution 和 单 向 模型 ,因为 双向 LSTM 的 时 延 达 不 到 要 求 。 
2) Nervana 公司 的 实现 
下 面 介 绍 一 下 Nervana 公司 (已 被 Intel 公司 收购 ) 提 出 的 端 到 端 语音 识别 模型 , 采 
的 是 百度 DeepSpeech2 的 设计 。 该 端 到 端 语音 识别 系统 由 3 个 主要 部 分 组 成 ( 见 
图 2-14) 。 
CD 特征 提取 。 将 原始 音频 信号 (例如 来 自 wav 文件 ) 作 为 输入 ,并 产生 特征 向 量 序 
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列 , 其 中 有 一 个 给 定 音 频 输入 帧 的 特征 向 量 。 

特征 提取 级 的 输出 示例 包括 原始 波形 .频谱 图 和 同 
样 流行 的 梅 尔 频率 倒 频谱 系数 (Mel-Frequency Cepstral 
Coefficients, MFCCs) 的 切片 。 

(2) 将 特征 向 量 序列 作为 输入 ,并 产生 以 特征 向 量 
输入 为 条 件 的 字符 或 音频 序列 的 概率 声学 模型 。 

(3) 采用 两 个 输入 (声学 模型 的 输出 和 语言 模型 ) 的 
解码 器 ,在 声学 模型 生成 序列 的 情况 下 ,搜索 最 可 能 的 
转录 。 

纯 DNN 模型 的 语音 识别 ,可 以 参考 百度 公司 的 
DeepSpeech 和 DeepSpeech2 论文 。 

一 个 具体 实现 和 源 代码 ,可 参考 如 下 网 址 。 

(1) https://www. nervanasys. com/ end-end-speech 
recognition-neon/ , 

(2) https://github. com/NervanaSystems/ deepspeech, 

目前 各 大 互联 网 公司 ,如 百度 .科大 讯 飞 ,搜狗 等 , 纷 
纷 发 布 了 语音 输入 法 方言 识别 .语音 转录 (如 百度 公司 
的 swiftscribe) 等 功能 ,也 进一步 表明 端 到 端 深度 学 习 的 
语音 识别 的 成 熟 性 ,以 及 深度 学 习 技 术 在 语音 识别 中 的 
日 益 普 及 。 


2.3.2 计算 机 视觉 
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端 到 端 英文 语音 
识别 系统 


计算 机 视觉 (Computer Vision,CV) 包 含 对 象 检 测 \ 人 脸 识别 .文字 识别 等 。 对 象 检 
illl Object Detection) 是 计算 机 视觉 的 一 项 基本 功能 。 下 面 主要 研究 一 下 对 象 检测 技术 。 


1. R-CNN 系列 


AlexNet 在 图 像 识别 任务 上 取得 的 巨大 成 功 ,让 目标 检测 领域 的 研究 者 们 也 将 更 多 


的 精力 投入 到 基于 深度 学 习 的 检测 方法 上 。 


Ross Girshick 等 人 提出 的 R-CNN CRegion-based Convolutional Neural Networks) 
算法 第 一 次 将 这 个 想法 变 为 现实 ,并 在 Pascal VOC 目标 检测 比赛 中 取得 巨大 突破 。 
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R-CNN 的 工作 流程 是 首先 利用 选择 性 搜索 (Selective Search) 算 法 提取 候选 区 域 
(Proposal) ,接着 通过 卷 积 神经 网 络 对 候选 区 域 提取 特征 ,最 后 通过 SVM 分 类 器 对 每 个 
候选 区 域 进行 分 类 识别 ,将 非 极 大 值 抑 制 (Non-Maximum Suppression, NMS) 去 重 后 的 
最 终结 果 返 回 。 

随后 ,Ross Girshick 和 其 他 研究 者 对 R-CNN 算法 进行 了 多 次 改进 ,包括 借鉴 SPP- 
Net 思想 减少 候选 区 域 卷 积 特征 重复 提取 的 Fast R-CNN 算法 ,以 及 使 用 RPN(Region 
Proposal Network) 代 蔡 选 择 性 搜索 算法 加 速 候 选区 域 提取 的 Faster R-CNN 算法 。 


2. YOLO 算法 

YOLO( You Only Look Once) 算 法 是 第 一 个 达到 实时 性 要 求 的 深度 学 习 检测 算法 ， 
在 Titan X GPU 上 的 运行 速度 可 以 达到 45 帧 / 秒 (Frame Per Second), #1 R-CNN 系列 
算法 事先 提取 候选 区 域 再 对 其 进行 分 类 识别 的 思路 不 同 ,YOLO 直接 将 整 张 图 像 输入 到 
神经 网 络 中 ,将 目标 检测 任务 化 简 成 一 个 回归 问题 ,在 保证 精度 不 过 多 损失 的 前 提 下 , 极 
大 地 提高 了 识别 速度 ,实现 端 到 端 (End-to-End) 的 快速 目标 检测 。 

YOLOv2 算法 在 YOLO 算法 的 基础 上 ,该 研究 的 作者 同样 采取 了 Anchor 机 制 , 并 
新 加 入 了 K 均值 聚 类 批 次 规范 化 、 转 移 层 ,直接 位 置 预测 等 技巧 ,使 得 YOLOYv2 在 网 络 
训练 时 的 收敛 速度 ,以 及 最 终 检 测 时 的 结果 准确 度 和 计算 速度 等 方面 得 到 显著 提升 。 


2.4 深度 学 习 实 践 


2.4.1 建 模 工具 


深度 学 习 网 络 内 部 建 模 过 程 如 图 2-15 所 示 。 

深度 学 习 工 具 是 一 套 灵活 的 建 模 框架 。 使 用 深度 学 习 工 具 , 在 大 数据 集 与 大 运算 量 
下 ,采用 一 些 基本 框架 ,避免 很 多 人 工 干预 和 手动 编程 ,实现 过 程 的 自动 化 。 

一 个 神经 网 络 模型 主要 包括 数据 输入 .神经 层 处 理 .损失 函 数 计算 、 反 向 梯度 计算 、 
训练 与 验证 。 神 经 层 处 理 包 括 网 络 结构 .连接 关系 ,以 及 激励 函数 的 选择 。 


2.4.2 软 硬 件 工具 
各 家 互联 网 巨头 都 推出 了 相应 的 软件 工具 ,主要 有 谷歌 公司 的 TensorFlow 、 脸 书 公 
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图 2-15 深度 学 习 网 络 内 部 建 模 过 程 





司 的 Torch, f 4 Ax s] ff] CNTK ,以 及 亚马逊 公司 支持 的 MXNET。 这 些 框 架 将 以 上 的 
模块 和 过 程 自 动 化 ,大 大 促进 了 深度 学 习 技 术 的 普及 。 
深度 学 习 软 硬件 工具 如 图 2-16 所 示 。 


TensorFlow Torch CNTK Theano MXNET 
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2-16 深度 学 习 软 硬件 工具 
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深度 学 习 工 具 一 直 是 深度 学 习 研 究 进展 的 一 个 副产品 。 国 际 上 对 深度 学 习 的 研究 ， 
呈现 出 群雄 逐鹿 的 局 面 ,其 中 当前 几 个 实力 雄厚 的 团队 如 下 。 

(1) 由 Jeff Dean 领导 的 Googel Brain 团队 ,包括 深度 学 习 领 军人 物 Geoffrey 
Hinton, 

(2) 由 Yann LeCun 领导 的 Facebook AI Research, 

(3) Hi Ilya Sutskever 领导 的 OpenAL. 
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从 硬件 层面 ,底层 硬件 包括 可 编程 逻辑 阵列 (FPGA) ,388 FH ELE Ak E 3$ (GPGPU) , 3B 
用 处 理 器 (CPU) 群 集 。 因 为 运行 效率 的 问题 ,目前 主要 采用 通用 图 形 处 理 器 .FPGA 和 
定制 化 的 方法 。 

例如 ,NVIDIA 公司 提出 的 Pascal 系列 、Tesla 系列 等 通用 图 形 处 理 器 。 英 特 尔 公司 
收购 了 Nervana 和 Altera 公司 ,推出 的 Phi 处 理 器 等 。 谷歌 公 司 更 是 推出 了 定制 化 
ASIC 的 TPU(TensorFlow Processing Unit)。 

微软 .亚马逊 和 谷歌 都 推出 了 带 通用 图 形 处 理 器 的 云 主机 ,大 大 方便 了 深度 学 习 的 
使 用 。 几 家 公司 又 推出 了 带 可 编程 逻辑 阵列 (FPGA) 的 云 主机 ,大 大 方便 了 定制 化 的 神 
经 网 络 训练 和 部 署 。 


2.5 小 结 


本 章 全 面 回顾 了 深度 学 习 的 基本 原理 和 技术 。 首 先 ,介绍 了 人 工 神经 元 的 结构 ,多 
层 人 工 神经 网 络 的 训练 过 程 。 接 着 ,介绍 了 人 工 神经 网 络 的 典型 架构 ,如 卷 积 神经 网 络 、 
循环 神经 网 络 和 长 短 时 记忆 网 络 。 最 后 ,介绍 了 机 器 感知 任务 中 的 语音 识别 和 计算 机 视 
觉 的 技术 突破 和 最 新 进展 。 

当前 深度 学 习 的 主要 软 硬 件 技术 框架 日 益 成 熟 ,尤其 在 数据 中 心中 已 经 大 规模 部 
署 。 各 大 互联 网 企业 都 投入 巨大 人 力 和 物力 ,纷纷 开发 了 各 自 的 软件 框架 ,并 配合 各 自 
的 硬件 平台 ,完善 各 自 的 机 器 学 习 应 用 的 生态 环境 。 
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强化 学 习 是 机 器 学 习 中 的 一 个 领域 ,强化 学 习 强 调 如 何 基于 环境 而 行动 ,以 取得 最 
大 化 的 预期 利益 。 它 是 一 种 通用 的 学 习 与 规划 (Learning and Planning) 的 方法 框架 。 


3.4, 强化 学 习 基 础 


3.1.1 强化 学 习 概述 


1. 强化 学 习 的 原理 

强化 学 习 (Reinforcement Learning) 是 一 种 通用 的 决策 框架 (Decision-Making 
Framework)。 在 强化 学 习 中 ,智能 体 (Agent) 具 有 采取 动作 (Action) 的 能 力 (Capacity)， 
每 次 动作 都 会 影响 智能 体 的 未 来 状态 (State) ,返回 一 个 标量 的 奖赏 信号 (Reward Signal) 
来 量化 表示 成 功 与 否 (Success)。 强 化 学 习 算 法 的 目标 (Goal) 就 是 如 何 采 取 动 作 
(Action) 最 大 化 未 来 的 奖赏 (Future Reward) 。 强 化 学 习 示 意图 如 图 3-1 所 示 。 

简单 地 说 ,强化 学 习 是 使 用 反馈 来 更 新 行动 ,以 获得 最 大 化 收益 的 算法 。 而 深度 学 
习 是 表示 学 习 的 通用 框架 。 给 定 目 标 , 学 习 到 需要 达到 目标 的 表示 。 深 度 学 习 使 用 最 小 
的 领域 知识 ,特征 表示 直接 从 原始 输入 中 自动 学 习 获 得 。 

2. 强化 学 习 的 观测 

在 每 个 时 间 步 i, 智能 体 的 行为 如 下 。 

CD 执行 动作 ai. 


se seen gg 





KH | r 








3-1 强化 学 习 示意 图 


(2) 获得 一 个 环境 的 观测 o, 。 

(3) 获得 一 个 标量 的 奖赏 x,。 

外 界 环境 的 行为 如 下 。 

CD 接收 到 智能 体 的 动作 a, 。 

(2) 发 出 一 个 观测 os 给 智能 体 。 

(3) 发 出 一 个 奖赏 na. 

这 里 经 验 (Experience) 就 是 一 组 观测 ,动作 、 奖 赏 的 序列 。 
O1 $41 sdi 8 7** a 80; ST, 


状态 s, 可 以 认为 是 经 验 的 函数 , 即 


5$ = fC sri saist saca s9 rr) 
在 一 个 完全 可 观测 的 环境 ,以 上 公式 简化 为 
s, = fo) 


3. 强化 学 习 的 要 素 

从 强化 学 习 智 能 体 的 角度 看 ,强化 学 习 包 含 一 组 要 素 组 件 。 
(1) 策略 (Policy) 是 指 智 能 体 的 行为 函数 。 

(2) 价值 (Value) 函 数 是 指 每 个 状态 与 动作 的 成 效 。 
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(3) 模型 (Model) 是 指 智 能 体 对 环境 的 建 模 表示 。 

按照 要 素 的 区 分 ,强化 学 习 的 方法 包括 基于 价值 的 强化 学 习 (Value-based RL) 、 基 于 
策略 的 强化 学 习 (Policy-based RL) 和 基于 模型 的 强化 学 习 (Model-based RL), 

基于 价值 的 强化 学 习 在 于 在 任何 策略 下 ,估计 最 优 的 价值 函数 。 

基于 策略 的 强化 学 习 在 于 寻找 最 优 策略 x°, 

策略 是 智能 体 的 行为 ,将 状态 映射 为 动作 ,例如 ,有 如 下 确定 性 策略 和 随机 策略 。 

(1) 确定 性 策略 (Deterministic Policy) : a —z6G). 

(2) 随机 策略 (Stochastic Policy): z(a|s) = P[als]. 


T 





3.1.2 深度 强化 学 习 


深度 强化 学 习 (Deep Reinforcement Learning. Deep RL) 就 是 把 强化 学 习 RL 和 深 
度 学 习 DL 结合 起 来 。 用 强化 学 习 定 义 目标 ,用 深度 学 习 给 出 相应 的 机 制 ,如 Q 学习 等 
技术 ,以 实现 通用 人 工 智 能 。 深 度 强化 学 习 的 核心 原理 是 使 用 深度 神经 网 络 来 近似 表示 
强化 学 习 中 的 价值 函数 ,策略 和 模型 。 

深度 强化 学 习 又 分 为 基于 价值 的 深度 强化 学 习 (Value-based Deep RL) 、 基 于 策略 的 
深度 强化 学 习 (Policy-based Deep RL) 和 基于 模型 的 深度 强化 学 习 (Model-based Deep 
RL). 


1. 基于 价值 的 深度 强化 学 习 

1) 深度 Q 网 络 

价值 函数 (Value Function) 就 是 预测 未 来 的 奖励 。Q 值 函数 可 以 给 出 长 期 的 期 望 收 
益 , 在 策略 x 的 情况 下 ,一 般 使 用 折扣 因子 。 

Q*G.a) Era + Yrs + Y reas d nd ssa] 

模型 是 从 经 验 中 学 习 的 ,可 以 作为 环境 的 一 个 代理 。 可 以 使 用 预先 查找 算法 来 
模拟 。 

价值 函数 可 以 用 使 用 权重 为 w 的 Q 网 络 (Q-network) 来 表示 ,如 图 3-2 所 示 , 即 ， 

Qs, asw) —Q*(s, a) 








2) Q 学 习 
Q 学 习 (Q-learning) 就 是 优化 Q 值 应 遵循 Bellman 方程 ,写成 如 下 Bellman 方程 
形式 : 


a 
x 32 p 
WIN 


ee oer °° 


Q(s, a, w) Qls, a w) … O(S, am W) 


posse eres) 


























w wW 
图 3-2 价值 函数 用 权重 为 w BJ Q 网 络 来 表示 


Q" (s.a) 5 Eg[r +y max; QG'.a/)* | ssa] 
Q 学 习 把 公式 中 的 右 侧 视 为 一 个 整体 ,人 们 可 以 使 用 深度 神经 网 络 去 近似 Q f PR 
数 , 采 用 梯度 下 降 法 最 小 化 损失 函数 的 均 方 误差 的 学 习 过 程 。 损 失 函 数 形式 表示 如 下 : 
l= (r+ymaxQ(s ,a w)— Q(s,a,xe) )2 
通过 这 样 训练 生成 的 深度 神经 网 络 ,又 称 为 深度 Q 网 络 (Deep Q-Network)。 
3) 经 验 回放 
Q 收敛 可 以 使 用 表 查 询 表 示 方 法 ,但 是 使 用 深度 神经 网 络 的 方法 会 出 现 分 歧 问 题 
(diverge) 。 这 是 样本 之 间 的 相关 性 和 目标 的 非 平稳 性 造成 的 。 
为 了 解决 这 个 问题 ,消除 学 习 样 本 的 相关 性 ,采用 经 验 回放 (Experience Replay) 的 
方法 ,如 图 3-3 所 示 。 


Si ajs Fas S2 


| S>, 5 F3, $3 -————-— (Sra Poen 


Sp Ap Fris Sed ——- Sp Ap Tis S 


33 经 验 回 放 



































从 数据 集中 采样 经 验 , 并 在 损失 函数 中 更 新 。 为 了 解决 非 平稳 性 问题 ,目标 的 参数 
w 是 固定 的 。 
l= (rc y maxiQ (sa w^ )— Q(s;a sw) )? 
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2. 基于 策略 的 深度 强化 学 习 
1) 深度 策略 网 络 (Deep Policy Network) 
通过 深度 神经 网 络 ( 权 重 参数 u) 表 示 策 略 : 

4 一 rals, u) 或 a-mGluw) 
定义 目标 函数 是 整体 折扣 后 的 回报 ,一 般 使 用 折扣 因子 y, 

Llu) = Eln + yrx + Y! rs + ** | zls, 0] 

通过 随机 梯度 下 降 法 来 优化 目标 函数 ,例如 修正 权重 x 来 获得 更 多 的 回报 。 
一 个 随机 策略 m Cas. w) RO RE 


Ilu) _ Ə(Inz(a | 50) any. 
u i — Ga)】 


du du 





如 果 a 是 连续 可 微分 的 ,一 个 确定 性 策略 a = a Cs | u) IJ BB BETT VA t — 2b j AE A 
Au) _ g[ (3c e.» 24) 


du da du 

ik: 全 书 中 出 现 的 对 数 没有 底数 ,是 因为 所 参考 的 资料 中 不 限制 log 的 底数 ,默认 是 
自然 对 数 底 。 

2) Actor-Critic 算法 

过 去 的 时 间 里 ,人 们 提出 了 单 表 演 者 (Actor-only)、 单 评论 家 (Critic-only)、 表 演 者 - 
评论 家 (Actor-Critic) 等 强化 学 习 方 法 。 其 中 ,表演 者 (Actor) 就 是 策略 (Policy) 函数 的 
同义词 ,评论 家 (Critic) 就 是 价值 (Value) 函数 的 同义词 。 

Actor-only 方法 一 般 采 用 一 组 参数 化 的 策略 来 工作 ,这 样 可 以 直接 使 用 优化 过 程 。 
这 种 参数 化 策略 的 优点 是 连续 动作 的 范围 可 以 生成 ,但 是 优化 方法 (如 策略 梯度 方法 ) 会 
在 梯度 估计 时 出 现 方差 高 的 问题 ,这 又 将 导致 学 习 比 较 慢 的 问题 。 

Critic-only 方法 使 用 时 间 差 分 学 习 , 具 有 期 望 回 报 估计 方差 低 的 优点 。 从 Critic-only 
方法 直接 导出 策略 的 方法 是 选择 贪 禁 动 作 。 选 择 那些 价值 函数 指示 是 平均 回报 最 高 的 
动作 。 然 而 ,这 需要 诉 诸 于 优化 的 流程 ,在 进入 每 个 状态 时 ,找到 最 大 价值 的 动作 。 当 动 
作 空 间 是 连续 时 ,这 是 一 个 计算 密集 的 任务 。 所 以 ,Critic-only 方法 一 般 会 离散 化 连续 动 
作 空 间 , 此 后 ,在 动作 空间 的 优化 就 变 成 一 个 枚 举 过 程 。 

Actor-Critic 方法 组 合 Actor-only 和 Critic-only 方法 的 优点 。 尽 管 参数 化 的 Actor 
可 以 计算 连续 动作 ,无 须 在 价值 函数 上 优化 ,而 Critic 的 优点 是 为 Actor 提供 关于 行为 效 
果 的 低 方差 的 知识 。 更 具体 地 说 ,Critic 对 平均 回报 的 估计 允许 Actor 用 来 更 新 梯度 ,使 


$^» 
X 34 p 
€ s 
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其 具有 的 方差 较 小 ,这 就 加 速 了 学 习 过 程 。Actor-Critic 方法 相 比 于 Critic-only 方法 , 具 
有 更 好 的 收敛 属性 。 所 以 ,Actor-Critic 方法 的 良好 属性 ,使 其 成 为 在 实际 应 用 中 首选 的 
增强 学 习 算法 。 
Actor-Critic 算法 的 估计 价值 函数 为 Q(s,a,w) A Qo Gr. a), 通过 随机 梯度 下 降 法 更 
新 权重 。 
a 
Ju 
如 果 a 是 连续 可 微分 的 ,采用 确定 性 策略 a = Cs | u) AIEE BE R VL E — 2b (i (6 79 
al E| (ze 2) 


Ju ða Ju 


3 (Inz (a | s.u)) 
— (s.a. 
E[( n (ssa w) ) 


3. 基于 模型 的 深度 强化 学 习 

基于 模型 的 深度 强化 学 习 (Model-based Deep RL) 试 图 对 外 界 环 境 建 模 ,创建 预测 
模型 (Predictive Model) ,从 而 预测 反馈 的 奖赏 和 观察 。 对 于 一 些 计算 机 游戏 ,如 Atari. 
可 以 通过 卷 积 神经 网 络 和 循环 神经 网 络 对 输入 的 人 类 选手 数据 进行 训练 ,建立 预测 模 
型 。 但 是 对 于 计算 机 围棋 等 应 用 ,因为 一 般 无 法 直接 建立 模型 ,所 以 多 采用 模型 无 关 的 
深度 强化 学 习 (Model-free Deep RL) 方 法 。 

4. 深度 强化 学 习 的 应 用 

深度 强化 学 习 的 应 用 广泛 ,包括 计算 机 游戏 .计算 机 围棋 .计算 机 扑克 .机 器 人 运动 
控制 。 基 于 价值 的 强化 学 习 , 来 训练 神经 网 络 DQN ,可 学 会 玩 各 类 游戏 ,如 Atari 等 。 

2015 4E 11 月 ,谷歌 的 DeepMind 计算 机 围棋 AlphaGo, 首 次 战胜 人 类 专业 棋 手 。 
2017 年 8 月 ,OpenAI 的 计算 机 游戏 智能 体 在 Data2 游戏 中 ,首次 击败 了 人 类 最 好 选手 。 


3.1.3 强化 学 习 框 架 


2016 年 11 月 ,Google DeepMind 公司 开源 了 Lab 软件 ,Lab 源 代码 托管 在 Github 
上 , 见 https: //github. com/deepmind/lab, 

2016 4E 12 月 .OpenAI 组 织 也 开源 了 OpenAI Universe 软件 , Universe 源 代 码 托管 
在 Github 上 , 见 https://github. com/openai/universe。 


$$$ AlphaGo 4069693 A d OB A Gb — ries Tesortlow RR 


3.2 计算 机 围棋 


3.2.1 围棋 游戏 


1. 围棋 规则 

围棋 是 一 项 历史 悠久 的 棋 类 项 目 。 围 棋 棋盘 是 19X19 的 网 格 , 纵 横 各 19 路 直 
线 , 形 成 361 个 交叉 点 。 围 棋 棋子 分 为 黑白 两 种 , 白 子 180 颗 , 黑 子 181 颗 , 共 361 
颗 棋子 。 

围棋 规则 比较 简单 ,主要 有 以 下 7 条 规则 。 

CD 博弈 黑白 双方 ,依次 落 子 。 落 子 在 纵横 网 格 的 交叉 点 上 。 

(2) 黑 方 先 走 , 落 黑子 ; 白 方 后 走 , 落 白 子 。 

(3) 在 轮 到 一 方 落 子 时 ,一方 可 以 选择 放弃 落 子 。 如 果 双 方 都 放弃 ,比赛 结束 。 

(4) 下 子 后 不 能 造成 和 以 前 相同 的 棋局 。 

(5) 一 片 同 色 棋 子 的 所 有 连 线 相 邻 的 交叉 点 (纵横 线 ) ,都 被 对 手 占 满 后 , 则 这 一 片 同 
色 棋 子 就 被 对 手 吃 掉 而 清空 。 

(6) 一 方 的 领土 是 他 的 棋子 占 的 位 置 以 及 包围 的 交叉 点 。 

(7) 占 位 多 的 一 方 获胜 。 

围棋 的 水 平 可 分 为 初学 者 .业余 与 职业 三 类 。 其 中 初学 者 (Beginner) 分 为 30 级 , 业 
余 (Master) 分 为 7 段 , 职 业 (Professional) 分 为 9 段 , 职 业 9 段 是 顶级 水 准 。 成 为 职业 9 
段 的 选手 ,不 仅 需要 有 天 赋 , 还 需要 付出 数 十 年 的 时 间 和 精力 。 职 业 9 段 的 棋 力 水 准 也 
是 计算 机 围棋 需要 达到 的 目标 。 围 棋 的 段位 分 级 如 图 3-4 所 示 。 

初学 者 业余 à 职业 
mm TER m 
图 3-4 围棋 的 段位 分 级 





2. 计算 机 围棋 
围棋 是 一 项 搜索 空间 巨大 的 棋 类 游戏 ,被 称 为 人 工 智能 挑战 的 一 项 王冠 。 计算机 棋 
类 游戏 被 认为 是 AI 界 的 果 蝇 (Fruit Fly) ,是 人 们 研究 最 多 的 AI 游戏 。 这 类 游戏 提供 了 
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一 个 验证 新 想法 ,与 人 类 较量 水 平 ,以 及 AI 算法 之 间 容 易 互 相 比较 的 实验 沙 箱 。 

2009 年 ,计算 机 围棋 Fuego 第 一 次 在 9> 9 棋盘 上 击败 9 段 选手 。 在 接 下 来 的 几 年 
里 ,在 有 让 子 的 情况 下 ,计算 机 围棋 在 195€ 19 的 棋盘 上 也 能 击败 人 类 职业 选手 。 

东京 电气 大 学 杯 (UEC 杯 ) 是 比较 知名 的 计算 机 围棋 的 比赛 。 自 2007 年 开始 ,已 经 
累计 办 了 10 届 。 比 较 知名 的 计算 机 围棋 有 Fuego, CrazyStone, Zen, Erica, Darkforest 
等 ,人 们 使 用 这 些 围 棋 先 后 参赛 并 获得 名 次 。 

计算 机 围棋 CrazyStone, 曾 经 获得 第 1 届 \ 第 2 届 、 第 6 届 和 第 8 届 的 UEC 杯 冠军 。 
其 作者 Remi Coulom 曾经 是 法 国 里 尔 第 三 大 学 的 副教授 。 

计算 机 围棋 Fuego 获得 第 4 届 UEC 杯 冠军 ,其 作者 Martin Müller 是 加 拿 大 阿尔 伯 
塔 大 学 的 计算 机 系 教授 。 

计算 机 围棋 Erica 获得 第 5 届 UEC 杯 亚军 ,其 作者 是 黄 世 杰 ,也 是 阿尔 法 围棋 的 作 
者 之 一 。 计 算 机 围棋 Darkforest 获得 第 9 届 UEC 杯 亚 军 ,其 作者 是 Facebook 公司 的 
WHE o 

计算 机 围棋 Zen 曾经 获得 第 5 届 、 第 7 届 和 第 9 届 的 UEC 杯 冠军 ,其 作者 是 日 本 的 
围棋 程序 员 Yoji Ojima, 2016 年 , 受 阿 尔 法 围棋 的 深度 学 习 算 法 的 启发 ,其 作者 将 Zen 
升级 为 DeepZenGo。 

2017 年 ,腾讯 公司 的 计算 机 围棋 程序 绝 艺 (Fineart) 击 败 DeepZenGo, 获 得 了 第 10 
届 UEC 杯 冠 军 。 

关于 计算 机 科学 家 征服 计算 机 围棋 的 计划 ,参见 以 下 文献 : 

Sylvain Gelly, Levente Kocsis, Marc Schoenauer, et al. The Grand Challenge of 




















Computer Go; Monte-Carlo Tree Search and Extensions. Communications of the ACM. 


Vol. 55, no. 3 (2012) ; 106-113. 
3.2.2 蒙特 卡 洛 树 搜 索 
自从 2006 年 的 蒙特 卡 洛 树 搜索 (Monte-Carlo Tree Search，MCTS) 算 法 出 现 后 , 计 


算 机 围棋 的 棋 力 增长 有 了 突破 性 的 进展 。 下 面 介绍 一 下 蒙特 卡 洛 树 搜索 方法 。 


1. 蒙特 卡 洛 树 搜索 介绍 
蒙特 卡 洛 仿真 (Monte-Carlo Evaluations, MCEs) 最 早 由 Abramson 在 1990 年 引入 ， 
用 于 解决 棋 类 等 游戏 。 蒙 特 卡 洛 树 搜索 如 图 3-5 所 示 。 
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Remi Coulom 首先 提出 在 蒙特 卡 洛 树 上 进行 选择 (Selectivity) 和 回溯 (Backup) 过 
fé. Remi Coulom 开发 了 商业 化 围棋 软件 CrazyStone。CrazyStone 采用 提出 的 
MCTS 方法 , 棋 力 水 平 大 增 , 曾 经 是 水 平 最 高 的 计算 机 围棋 程序 , 棋 力 水 平 在 业余 
5—6 B. 

蒙特 卡 洛 搜索 树 荆 包含 节点 n(s),s 代表 仿真 中 的 一 个 状态 。 每 个 节点 都 有 一 个 状 
态 计数 值 N(s) 和 动作 值 QU «o ,以 及 每 个 动作 的 计数 值 N(s,a), 其 中 a€4。 

蒙特 卡 洛 树 搜索 包含 两 部 分 , 即 树 策略 (Tree Policy) 和 默认 策略 (Default Policy)。 
树 策略 用 来 选择 动作 ,每 次 仿真 产生 状态 {50 ,40 sia st sr) ,其 中 sr 为 最 终结 果 状 态 。 
每 次 仿真 更 新 每 个 状态 s 的 计数 值 N (s,) 和 动作 值 Q(s,,a,)。 

更 新 过 程 如 下 : 














N(s)<— NGO-T1 
N (stva) N(s a,)+ 1 
—Q(s ai) 


N(s,sa,) 
最 简单 的 贪 禁 树 策略 ,就 是 从 so 状态 出 发 ,选择 Q 值 最 大 的 值 。 
蒙特 卡 洛 树 搜索 原理 如 图 3-5 所 示 。 蒙 特 卡 洛 树 搜索 原理 的 详细 步骤 如 图 3-7 一 
图 3-11 所 示 。 其 中 图 3-6 给 出 各 图 中 的 符号 说 明 。 


ES P $ 


3-5 蒙特 卡 洛 树 搜索 
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当前 状态 一 树 策略 
yx 树 的 新 节点 
CO 树 中 保存 的 节点 
O 被 访问 但 未 保存 的 节点 水 平 横 线 的 上 部 分 pH 
为 树 策略 ， TH 默认 策略 
比赛 结果 的 
当前 仿真 
一 先前 仿真 
图 3-6 符号 说 明 图 3-7 示例 图 1 
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树 策略 当前 状态 — 
树 策略 
默认 策略 默认 策略 
图 3-8 示例 图 2 图 3-9 示例 图 3 
当前 状态 — @ "inks — E 
树 策略 树 策略 
默认 策略 默认 策略 

















3-10 示例 图 4 





图 3-11 示例 图 5 
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图 中 内 容 取 自 于 Sylvain Gelly 和 David Silver 的 研究 论文 。 第 一 作者 Sylvain Gelly 
也 是 计算 机 围棋 MoGo 的 设计 者 ,第 二 作者 David Silver 是 阿尔 法 围棋 架构 主 设计 师 。 
该 论文 提出 的 思路 在 阿尔 法 围棋 的 核心 算法 中 都 有 体现 , 只 是 更 加 具体 化 。 可 参考 的 论 
文 信息 如 下 : 

Sylvain Gelly, David Silver. Monte-Carlo Tree Search and Rapid Action Value 





Estimation in Computer Go. Artificial Intelligence 175, no. 11: 1856-1875, 2011. 

MCTS 方法 的 效果 取决 于 搜索 树 的 生成 。 搜 索 树 的 每 个 节点 的 展开 需要 一 定 的 策 
略 。 如 何 有 效 地 展开 节点 ,保障 生成 高 质量 的 节点 ,又 不 使 得 搜索 树 过 度 膨 胀 ? 

这 个 问题 在 数学 上 被 称 为 多 臂 赌 博 机 问题 (Multi-Armed Bandit, MAB). UCT 
(Upper Confidence bounds applied to Trees) 算 法 把 树 节点 的 展开 生成 过 程 ,看 作 是 一 个 
多 臂 赌博 机 问题 ,从 而 有 效 地 解决 了 这 个 问题 。 下 面 首先 介绍 一 下 多 臂 赌博 机 问题 和 
UCT 方 法 。 


2. 多 璧 赌博 机 

多 臂 赌博 机 问题 : 一 个 赌 徒 面前 有 一 系列 赌博 机 (或 老虎 机 ) ,在 投入 硬币 后 ,每 个 财 
博 机 返回 的 回报 是 不 同 的 。 赌 徒 面临 的 问题 是 如 何 最 大 化 自己 的 收益 。 

当 赌 徒 尝试 了 一 系列 赌博 机 后 ,会 获得 一 些 统计 上 的 收益 。 但 是 , 赌 徒 并 不 知道 财 
博 机 背后 的 真实 收益 分 布 。 在 获得 已 有 的 收益 后 , 赌 徒 遇 到 的 策略 问题 是 : 是 继续 专注 
于 当前 获得 的 收益 呢 , 还 是 去 尝试 更 多 的 赌博 机 ? 

赌 徒 如 果 专 注 于 已 获得 收益 的 赌博 机 ,至 少 可 以 保持 一 定 的 收益 。 如 果 去 尝试 更 多 
的 先前 未 测试 过 的 赌博 机 ,有 可 能 出 现 尝试 失败 的 情况 ,但 也 有 可 能 会 发 现 具有 更 大 收 
益 的 赌博 机 。 


3. UCB 方法 和 UCT 方法 

UCB 方法 是 针对 多 臂 赌博 机 问题 的 一 种 解法 。 该 方法 力图 在 探索 (未 知 的 赌博 机 ) 
和 保持 ( 现 有 的 回报 ) 之 间 找 到 平衡 。 

UCB 方法 的 全 称 是 Upper Confidence Bounds, 即 置信 上 界 方法 。UCB 算法 最 早 由 
Peter Auer 等 人 提出 。 

UCT 的 全 称 是 Upper Confidence bounds applied to Trees, 它 是 UCB 在 游戏 树 
(Game Tree) 上 的 一 个 应 用 ,首先 由 Kocsis 和 Szepesvari 在 ECML 论文 中 提出 。 

UCT 算法 把 蒙特 卡 洛 树 节点 的 展开 生成 过 程 ,看 作 是 一 个 多 臂 赌 博 机 问题 。 通 过 
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将 UCB 方 法 移植 到 蒙特 卡 洛 树 上 ,有 效 地 解决 了 这 个 问题 。 


4. UCT 方法 与 EE 问题 

UCT 方法 的 核心 思想 是 解决 短期 回报 与 长 期 回报 之 间 的 折 中 问题 , 即 EE 问题 。 
EE 问题 的 全 称 是 (Exploitation or Exploration) ,或 者 Exploit-Explore 问题 。 其 中 : 

(1) 保持 (Exploit) 是 指 对 比较 确定 有 回报 的 方向 ,继续 尝试 。 

(2) 探索 (Explore) 是 指 对 新 的 方向 ,不 断 探索 ,防止 一 模 一 样 的 确定 方向 。 

UCT 方法 赋予 每 个 动作 一 个 动作 值 (Action Value) ,表示 如 下 : 


Zlnt 


jt 


X; (E 


其 中 ,前 项 是 该 分 支 目前 的 收益 均值 ,后 面 的 项 称 为 探索 激励 (Bonus) 。 探 索 激励 本 质 上 
是 均值 的 标准 差 形 式 , 其 中 + 是 目前 的 试验 次 数 ,Tj., 是 这 个 分 支 被 试验 的 次 数 。 

这 个 公式 表明 : 均值 越 大 ,标准 差 越 小 ,被 选中 的 概率 会 越 来 越 大 ,起 到 保持 的 作用 ; 
同时 ,那些 被 选 次 数 较 少 的 赌博 机 ,也 会 得 到 被 试验 机 会 ,起 到 探索 的 作用 。 

阿尔 法 围棋 使 用 了 PUCT(Predictor 十 UCT) 方 法 。PUCT 在 UCT 方法 上 进行 了 
微调 。 其 公式 推导 如 以 下 论文 所 示 : 

C D Rosin. Multi-armed Bandits with Episode Context. Annals of Mathematics and 


Artificial Intelligence. March 2011. Volume 61. Issue 3. 203-230. 


5. MCTS 十 UCT 算法 示例 
MCTS 十 UCT 算法 的 原理 由 以 下 公式 所 示 。 


g . [nN 
Q9 (s.a) c NG 


a* = argmax(Q® (s,a)) 


其 中 ,对 数 为 自然 对 数 。 


树 策略 使 用 UCT 算法 ,选择 下 一 步 动作 ,目标 是 最 大 化 动作 的 置信 上 界 , 即 树 策略 
选择 动作 a* ,最 大 化 增强 值 Qe 。 

默认 策略 使 用 手工 规则 、 领 域 专家 知识 ,监督 学 习 训 练 的 模式 来 选择 下 一 步 动作 。 

UCT 方法 赋予 每 个 动作 一 个 动作 值 , 这 时 会 产生 图 3-12(a) 。 从 根 节 点 有 两 个 选 
择 , 即 左 节点 和 右 节 点 ,胜率 分 别 为 5/7 和 0/2。 我 们 设 定 的 动作 值 为 
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SCORE(L) =5/7+k. sqrtC InC100/7 ) 
SCORE(R) —0/2--&. sqrt( In(10)/2 ) 
如 果 简 单 按照 胜率 做 选择 ,应 该 选择 左 节点 L, 因 为 其 胜率 更 高 。 这 时 会 产生 
图 3-12(b)。 但是, 如果 考虑 探索 的 奖励 项 , 即 公式 的 最 右 项 , 则 得 到 总 分 值 更 高 。 这 时 
会 产生 图 3-12(c)。 








(a) (b) (c) 
3-12 UCT 算法 解决 EE 问题 


图 3-12 表明 ,通过 调节 A 值 ,会 产生 不 同 的 分 值 。 这 样 , 可 以 使 算法 同时 兼顾 胜率 
(保持 ) 和 试验 (探索 ) 的 次 数 。 

JH UCT 方法 生成 的 结果 ,在 实践 中 证 明 比 贪 焚 树 方法 的 效果 好 很 多 。MoGo 是 第 
一 个 用 UCT 方法 的 计算 机 围棋 程序 。UCT 算法 把 树 节 点 的 展开 生成 过 程 ,看 作 是 一 个 
多 臂 赌博 机 问题 。 

MoGo 最 初 由 S. Gelly 和 Yizao Wang 开发 ,团队 还 包括 Remi Munos 和 Oliver 
Teytaud。MoGo 在 棋 力 水 准 上 显著 超过 了 其 他 9X9 棋盘 上 的 竞争 对 手 , 开 启 了 计算 机 
围棋 的 新 时 代 。 

RLGO 是 David Silver 开发 的 一 个 计算 机 围棋 程序 , 它 采 用 由 Markus Enzenberger 
和 Martin Muller 的 SmartGo 库 。 它 通过 强化 学 习 来 训练 价值 函数 来 预测 从 一 个 给 定 的 
状态 获得 的 最 终结 果 , 学习 过 程 自 然 采 用 游戏 的 胜 负 结果 作为 强化 学 习 的 奖赏 
(Reward) 。 

具体 参见 SGelly 和 David Silver 的 论文 : 


2 
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S Gelly. A Contribution to Reinforcement Learning: Application to Computer Go. 
PhD thesis. Universite Paris-Sud. 2008. 
David Silver. Reinforcement Learning and Simulation-Based Search in Computer 


Go. PhD thesis. University of Alberta. 2009. 


3.2.8 基于 卷 积 网 络 的 围棋 程序 


1. NeuroGo 
在 1996 年 ,Markus Enzenberger 就 提出 了 使 用 神经 网 络 来 下 围棋 的 想法 ,并 设计 了 
NeuroGo 程序 。 在 2012 年 以 后 ,最 终 在 计算 机 围棋 设计 中 得 到 广泛 应 用 ,其 效果 显著 。 


2. DeepGo 

DeepGo J& C. Clark 等 人 在 ICML 2015 上 给 出 的 采用 卷 积 网 络 下 围棋 的 一 种 具体 
实现 方法 。 

阿尔 法 围棋 团队 的 C. J. Maddison 等 人 在 ICLR 2015 上 也 提出 了 一 种 方法 。 这 种 
方法 最 终 被 应 用 在 阿尔 法 围棋 中 。 


3. Darkforest 

Darkforest 是 Facebook 公司 的 田 渊 栋 博 士 负责 开发 的 计算 机 围棋 程序 , 曾 获得 
UEC 杯 的 亚军 。Darkforest 也 是 采用 卷 积 网 络 进行 下 围棋 。Darkforest2 在 KGS 比赛 
获得 2 段 水 平 ,Darkforest3 增加 了 蒙特 卡 洛 树 搜索 ,在 KGS 比赛 达到 5 段 水 平 。 


3.3 阿尔 法 围棋 的 原理 


AlphaGo 是 由 Google 的 子 公 司 DeepMind 研发 的 计算 机 围棋 ,又 称 为 阿尔 法 围棋 。 
阿尔 法 围棋 综合 采用 蒙特 卡 洛 树 搜索 .强化 学 习 、 卷 积 网 路 等 技术 ,第 一 次 在 不 让 子 的 情 
况 下 ,击败 了 人 类 的 职业 选手 ( 攀 府 ,欧洲 围棋 冠军 ,当时 为 职业 2 段 )。 

阿尔 法 围棋 的 胜利 ,既是 算法 的 胜利 ,也 是 深度 学 习 和 强化 学 习 的 胜利 。 下 面 介 绍 
一 下 阿尔 法 围棋 的 研发 和 工作 原理 。 
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3.3.1 阿尔 法 围棋 团队 


阿尔 法 围棋 是 DeepMind 的 作品 。DeepMind 创立 于 2011 年 ,2014 年 被 Google Z+ 
司 收购 。 

David Silver 是 阿尔 法 围棋 的 首席 架构 师 。David Silver 也 是 UCL (University 
College London) 的 Lecturer( 类 似 讲师 ) ,教授 “强化 学 习 ” 课 程 。 

Aja Huang 即 Shih-Chieh Huang( 中 文 名 黄 世 杰 ), 是 阿尔 法 围棋 的 工程 实现 技术 负 
责 人 。 计算 机 围棋 AjaGo 和 Erica 的 作者 。 

David Silver 和 Aja Huang 都 在 加 拿 大 阿尔 伯 塔 大 学 做 研究 ,合作 导师 都 是 Martin 
Muller, Bf L4 David Silver 和 Aja Huang 比较 熟 。 

Chris J. Maddison 是 牛津 大 学 统计 系 博 士 生 ,在 DeepMind 做 研究 科学 家 (一 周 两 
天 )。 硕 士 导师 是 加 拿 大 多 伦 多 大 学 的 Geoffrey Hinton, 

Demis Hassabis 是 Google DeepMind 的 创始 人 。Demis Hassabis 在 UCL 4 5 f ql 
经 学 博士 学 位 ,与 David Silver 是 校友 。 

当前 的 人 工 智 能 领域 ,欧洲 和 加 拿 大 的 学 者 占有 很 重要 的 地 位 。 加 拿 大 的 阿尔 伯 塔 
大 学 在 计算 机 游戏 和 强化 学 习 方 面 的 研究 ,领先 于 其 他 世界 一 流 大 学 。 加 拿 大 多 伦 多 大 
学 和 蒙特 利 尔 大 学 在 深度 学 习 方 面 的 研究 ,领先 于 其 他 世界 一 流 大 学 。 

计算 机 围棋 相关 人 物 的 具体 介绍 ,可 以 在 如 下 网 站 中 找到 : 


https://chessprogramming. wikispaces. com, 


3.3.2 深度 卷 积 网 络 


阿尔 法 围棋 使 用 的 4 个 深度 神经 网 络 ( 见 图 3-130 , 均 采用 12 层 的 卷 积 网 络 。 

这 4 个 网 络 的 训练 过 程 和 使 用 具体 说 明 如 下 。 

CD xst 是 使 用 监督 学 习 训 练 的 策略 网 络 p,(a1s) , 它 是 12 层 的 卷 积 网 络 ,o 表示 该 卷 
积 网 络 的 内 部 连接 权重 。 

训练 数据 : 使 用 3000 万 KGS(Kiseido Go Server) ff 5 — 6 段 选手 的 对 弈 局 势 
(Positions) 。 

训练 效果 : 使 用 所 有 的 输入 特征 后 ,该 网 络 如 (als) 预 测 专家 下 棋 招 数 达 到 57 25 08 
准确 率 。 如 果 仅 使 用 当前 棋局 和 下 棋 历史 信息 ,预测 准确 率 为 55.7%。 
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下 子 策略 网 络 监督 学 习 的 策略 网 络 强化 学 习 的 策略 网 络 价值 网 络 
Pr Po Pp vo I 
深 
f 
分 类 分 类 自我 博弈 回归 
Em 
d» &> 据 
人 类 棋 手 的 对 弈 棋局 自我 博弈 的 对 弈 棋局 
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(2) 策略 网 络 p. (a1s) 是 一 个 快速 下 棋 网 络 。 该 网 络 使 用 部 分 输入 特征 ,使 用 
softmax O PR JC, 

策略 网 络 p. Cal s) MEE S4 Bi Js S (State) F ,采取 的 动作 (Action) ,用 softmax O PR 
数 后 , 它 是 一 个 概率 分 布 。r 表示 该 卷 积 网 络 的 内 部 连接 权重 。 

训练 数据 : 使 用 3000 万 KGS 的 5—6 段 选手 的 对 弈 局 势 (Positions) 。 

训练 效果 : 速度 快 2ws ,但 准确 率 低 , 仅 为 24.2%。 

(3) rgr 使 用 增强 学 习 训练 的 策略 网 络 pu Cal. 

训练 数据 : 基于 监督 学 习 训练 的 p,(als) ,采用 策略 梯度 下 降 方法 ,训练 p,,p 表示 该 
卷 积 网 络 的 内 部 连接 权重 。 

将 po 初始 化 为 c, 即 op 二 so。 然后 将 当前 版 本 p* 与 其 众多 和 迭代 的 前 版 本 o 进行 自我 博 
弈 ,将 自我 博弈 产生 的 棋局 数据 用 来 进一步 训练 。 

训练 效果 : 强化 学 习 训练 的 p, (a1s) 对 监督 学 习 训 练 的 p. Ca | 2 ,胜率 可 达 80% DÀ 
上 。 而 在 无 搜索 的 情况 下 ,该 网 络 对 于 另 一 个 开源 围棋 程序 Pachi, 胜 率 可 达 85% 。 

(4) 价值 网 络 vo(s) 训 练 。 

训练 目标 : 最 小 化 预测 值 vo(s) 与 最 终结 果 z 的 均 方差 。 

训练 问题 ; 采用 完整 的 KGS 棋局 数据 训练 该 网 络 导致 过 拟 合 , 因 为 前 后 局 势 是 强 相 


$$$ AlphaGo 406963 A 4 OB A 4b — est Tensortlow RR 


关 的 , 仅 差 一 子 。 价 值 网 络 的 训练 结果 是 MSE 为 0. 19 ,而 测试 的 结果 是 0. 37, 这 是 因为 
这 样 训练 的 价值 网 络 会 记 住 KGS 棋局 的 结果 。 

训练 数据 : 为 了 解决 这 个 问题 ,使 用 p, 自我 博弈 (selfplay) 生 成 的 棋局 ,从 不 同 棋局 
里 采样 出 3000 万 不 同 局 势 ,用 这 些 数据 训练 价值 网 络 。 这 样 训 练 的 结果 是 训练 集 上 
MSE 为 0. 226 ,而 测试 的 结果 是 0. 234。 

训练 效果 : vo(s) 一 次 就 能 判断 出 该 局 势 下 的 胜率 , 比 采 用 p, 的 蒙特 卡 洛 模拟 少 了 
15 000 次 的 运算 量 。 

阿尔 法 围棋 使 用 的 4 个 神经 网 络 的 特性 与 架构 如 表 3-1 所 示 。 


表 3-1 阿尔 法 围棋 使 用 的 4 个 神经 网 络 的 特性 与 架构 


深度 神经 网 络 特性 网 络 架构 效果 
速度 慢 , 准 确 性 高 。 在 3000 JF Cs, a) 上 |12 IRI RR AREE 3ms 
lis 训练 的 随机 监督 学 习 策略 招数 的 概率 分 布 um 
"T 速度 快 ,准确 性 低 。 在 3000 (s. a) 上 | 输入 为 所 有 模式 特征 的 评估 时 间 : 2ps 


训练 的 随机 监督 学 习 策 略 部 分 





与 xs 博弈 的 胜率 
为 80% 


wG) 价值 函数 。 从 状态 s 使 用 ru 获胜 的 胜率 | 与 si 相同, 但 只 输出 胜率 | 比 xsi 的 计算 量 少 


nR 随机 强化 学 习 策 略 ,通过 自我 博弈 训练 | 与 xs 相同 








3.3.3 结合 策略 网 络 和 价值 网 络 的 蒙特 卡 洛 树 搜索 


结合 策略 网 络 和 价值 网 络 的 蒙特 卡 洛 树 搜索 如 图 3-14 所 示 。 
可 尔 法 围棋 的 蒙特 卡 洛 树 搜索 方法 如 图 3-15 所 示 。 
可 尔 法 围棋 的 蒙特 卡 洛 树 搜索 有 效 结合 了 快速 走 子 的 策略 网 络 p. Ca | s) ,策略 网 络 
ps(als) 和 价值 网 络 的 vals) 。 

蒙特 卡 洛 树 遍 历时 ,每 条 边 (s, a) 上 会 关联 一 个 动作 值 QU. a) ,访问 计数 值 N, Gs. a) 
和 先 验 概率 PG. a), 

从 根 状 态 开 始 ,通过 仿真 遍历 整个 树 。 在 仿真 的 每 个 时 间 步 1, 从 状态 ,选择 动作 
a, ,其 中 














a, = argmax (Q(s, «a )+ uCs, a) ) 
最 大 化 动作 值 再 加 上 一 个 奖励 uls. a) Hp 
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3-14 结合 策略 网 络 和 价值 网 络 的 蒙特 卡 洛 树 搜索 


T(s) = argmax Q(s,a) 
Q(s,a) = eG, a)+ us a) 
下 子 网 络 的 探索 的 








i E; 
WH KDE 。 混合 的 权重 值 
1 EE 
Q'(s,a) = NT. [G — 2 (si) + * 
N(s,a) — 
INE / 
在 状态 s 下 动作 预先 计算 的 下 子 网 络 自我 博弈 
a 的 次 数 价值 函数 的 输赢 
VÈ N(s,b) 
u(s,a) = c - Ts, (a|s) 一 一 一 一 
1-4 N(s,a) 


3-15 ”阿尔 法 围棋 的 蒙特 卡 洛 树 搜索 方法 
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Pl(s,a) 
ld NG.a) 


该 奖励 正比 于 先 验 概率 ,但 是 随 着 访问 次 数 的 增加 而 衰减 ,这 样 有 助 于 去 探索 。 

当 树 遍历 到 叶 节 点 si 时 (在 第 二 步 ) 时 ,使 用 策略 网 络 pu Ca HORT PIECE AR s.。 输 出 
的 概率 作为 先 验 概率 P(s|a)。 该 叶 节 点 评估 采用 两 种 方式 : 一 种 采用 价值 网 络 vo GO 
另外 一 种 采用 随机 策略 网 络 p. (a|s)。 

最 后 该 叶 节 点 的 Q 值 采 用 两 种 方法 的 折 中 , 即 一 0. 5。 

vls) = (0 — AJ w(G + Azi 

这 时 会 发 现 , 采 用 palo IREI ERA p, (als) 效 果 要 好 ,原因 是 监督 学 习 网 
络 是 基于 人 训练 的 ,更 符合 人 下 棋 的 多 样 性 特点 。 而 价值 网 络 的 生成 ,采用 强化 学 习 比 
采用 监督 学 习 方法 要 好 。 

获取 策略 网 络 和 价值 网 络 的 评估 结果 的 计算 量 , 比 蒙特 卡 洛 树 搜索 的 计算 量 高 几 个 
数量 级 。 为 了 有 效 地 组 合 蒙特 卡 洛 树 搜索 和 深度 神经 网 络 , 阿 尔 法 围棋 在 通用 处 理 器 
CPU 上 ,使 用 异步 多 线程 进行 搜索 树 的 搜索 仿真 ;而 在 GPU 上 ,通过 并 行 计算 获得 策略 
网 络 和 价值 网 络 的 评估 结果 。 最 终 的 阿尔 法 围棋 用 了 40 个 搜索 线程 .48 个 CPU 和 8 个 
GPU。 并 行 多 机 的 阿尔 法 围棋 版 本 使 用 40 个 搜索 线程 .1202 个 CPU 和 176 个 GPU。 

实际 的 阿尔 法 围棋 采用 APV-MCTS( Asynchronous Policy and Value MCTS) 方 法 ， 
具体 实现 参考 阿尔 法 围棋 的 Nature 论文 。 


ulsa) cc 





3.3.4 阿尔 法 围棋 技术 总 结 


通过 前 面 介绍 可 看 到 阿尔 法 围棋 综合 使 用 了 计算 机 围棋 的 各 项 技术 : 蒙特 卡 洛 树 搜 
索 、 强 化 学 习 和 深度 学 习 技术 。 正 是 采用 了 深度 学 习 的 深度 卷 积 网 络 来 模拟 下 横 , 以 及 对 
局 势 的 判断 , 才 取 得 了 计算 机 围棋 上 棋 力 的 重大 突破 。 这 里 ,作者 系统 总 结 整 理 了 阿尔 法 
围棋 的 各 项 技术 ,包括 阿尔 法 围棋 继承 的 现 有 技术 、 新 发 展 的 技术 以 及 具体 的 技术 创新 。 

阿尔 法 围棋 技术 创新 大 全 如 表 3-2 所 示 。 

在 系统 实现 上 ,阿尔 法 围棋 团队 也 做 了 不 少 创新 。 例 如 ,做 了 分 布 式 计算 上 的 创新 ， 
解决 了 性 能 问题 。 

(1) 使 用 Virtual Loss 来 增加 线程 间 的 多 样 性 。 

(2) 控制 蒙特 卡 洛 树 的 更 新 ,使 得 不 同 速度 的 计算 过 程 能 互相 匹配 。 
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表 3-2 阿尔 法 围棋 技术 创新 大 全 
继承 现 有 技术 新 增发 展 技术 技术 创新 
使 用 深度 神经 网 络 : CD 使 用 快速 走 子 网 络 作为 默认 策略 ; 









O 从 棋谱 中 训练 快速 走 子 网 络 ; |@ 在 树 策略 的 每 个 节点 的 值 的 计算 上 : 
CQ 蒙特 卡 洛 树 搜索 |@ 从 棋谱 中 训练 SL 网 络 ; 使 用 了 SL 网 络 的 结果 作为 探索 奖励 项 的 


@ 神经 网 络 技术 O SL 网络 通过 自我 博弈 训练 得 | ”初始 值 ; 
到 RL 网络 ; C 价值 网 络 的 结果 与 快速 走 子 的 结果 对 半 
@ 用 RL 网 络 得 到 价值 网 络 混合 作为 每 次 模拟 的 产 出 


3.4, 小 结 


深度 强化 学 习 就 是 把 强化 学 习 (RL) 和 深度 学 习 (DL) 结 合 起 来 ,用 强化 学 习 定 义 目 
标 , 用 深度 学 习 给 出 相应 的 机 制 , 如 Q 学 习 等 技术 ,以 实现 通用 人 工 智能 。 目 前 强化 学 习 
得 到 了 巨大 发 展 ,在 很 多 领域 ,用 强化 学 习 方 法 可 以 实现 人 工 智能 的 行为 ,例如 阿尔 法 
围棋 。 

阿尔 法 围棋 的 成 功 证 明了 用 深度 神经 网 络 和 蒙特 卡 洛 树 搜索 方法 ,可 以 完成 很 多 规 
则 清晰 的 计算 机 游戏 的 人 工 智 能 ,并 能 有 效 击败 人 类 职业 选手 。 阿 尔 法 围棋 的 胜利 ,本 
质 上 是 一 拨 搞 计算 机 的 人 击败 了 另 一 拨 职 业 围 棋 选 手 ,也 是 人 类 创造 智能 工具 和 科技 的 
胜利 ! 
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2015 年 11 月 9 日 ,谷歌 公司 开源 了 大 规模 机 器 学 习 系 统 TensorFlow, 大 大 普及 了 
深度 学 习 的 应 用 。 最 初 是 由 谷歌 公司 的 机 器 智能 研究 部 门 的 谷歌 大 脑 团 队 开 发 了 
TensorFlow,TensorFlow 是 继 第 一 代 机 器 学 习 系 统 DistBelief 之 后 推出 的 第 二 代 机 器 学 
习 系 统 , 主 要 目的 是 为 进行 机 器 学 习 和 深度 神经 网 络 研究 。 

但 是 ,谷歌 大 脑 开发 团队 开发 TensorFlow 时 ,其 目标 就 要 求 这 套 工具 系统 有 足够 的 
通用 性 和 易 用 性 ,适用 于 多 种 不 同 的 机 器 学 习 领 域 ,能 够 运行 在 不 同 的 软件 和 硬件 平 
台 上 。 

2017 年 2 月 15 日 .谷歌 大 脑 团队 在 TensorFlow-Dev-Summit 上 ,正式 推出 了 
TensorFlow 1.0 版 本 。 目 前 在 微软 Azure 云 、 谷 歌 云 上 的 TensorFlow 标 配 版 本 为 1. 3。 





th TensorFlow 


Tensor( 张 量 ) 意 味 着 N 维 数组 。1 维 时 就 是 向 量 ,2 维 时 就 是 矩阵 ;通过 图 像 可 以 代 
表 更 高 维 的 数据 流 , 例 如 ,图 像 可 以 用 三 维 张 量 ( 行 , 列 ,颜色 ) 来 表示 。Flow( 流 ) 意 味 着 
基于 数据 流 图 的 计算 。 有 许多 运算 (图 中 的 节点 ) 应 用 在 数据 流 上 。 张 量 从 图 的 一 端 流 
动 到 另 一 端 ,这 就 是 TensorFlow( 张 量 流 )。 其 中 ,“ 边 ”代表 张 量 ( 数 据 ), 节 点 代表 运算 
处 理 。 

TensorFlow 是 用 数据 流 图 (Data Flow Graph) 进 行 数值 计算 的 一 个 开源 软件 库 。 图 
中 的 节点 表示 数学 运算 , 而 图 的 边 代 表 它 们 之 间 传 送 的 多 维 数据 阵列 ( 张 量 )。 灵 活 的 架 
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构 可 以 使 用 同一 个 API 的 调用 ,部署 在 一 个 或 多 个 CPU 或 GPU 的 桌面 计算 机 、 服 务 器 
或 移动 设备 。 
图 4-1 给 出 TensorFlow 的 分 层 架 构 。 
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图 4-2 给 出 了 TensorFlow 用 于 模型 训练 过 程 的 数据 流 图 。 


网 络 模型 参 数 
(ees) Cen e) 
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图 4-2. TeensorFlow 的 数据 流 图 示例 
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e TensorFlow 使 用 


4.2.1 TensorFlow 起 步 


TensorFlow 的 核心 代码 是 用 C++ 编程 ,前 端 用 Python 或 者 C++ 。TensorFlow 使 
用 Python 的 例子 如 下 。 





4.2.2 TensorFlow 数据 的 结构 


TensorFlow 参考 了 Python 中 的 Numpy 库 的 很 多 概念 ,如 Array 的 概念 ,Shape 的 
概念 ,reduce-sum PR Zt reshape PR E .argmax PR Zt. 

TensorFlow 中 ,Tensor 可 以 理解 为 Numpy 中 的 Array。 当 然 两 者 定位 不 同 。 

两 个 "世界 ”: TensorFlow €? Numpy 

Tensor & Array 

Array 是 在 内 存 中 切实 存在 的 数据 (矩阵 ), 有 形 (shape) 有 数据 (data) 。 

Shape 是 一 个 Array 的 大 小 ,例如 一 个 三 行 四 列 的 矩阵 ,Shape 是 [3, 4]。 更 高 阶 的 
Array 其 Shape 会 更 长 。 

Tensor 是 抽象 意义 的 数据 ,只 有 形 没 有 数据 。 只 有 在 Session. run() 的 时 候 ,Tensor 
才 真正 赋予 数值 ,并 开始 迭代 运算 。 
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4.2.3 TensorFlow 的 工作 流程 


1. 构建 网 络 结构 (计算 流程 ) 
预 留用 于 数据 输入 、 参 数 配 置 的 锚 点 。 


2. 填充 锚 点 ,运行 网 络 

(1) Tensor 存在 于 网 络 结构 中 ,只 有 形 没 有 内 容 。 
(2) Tensor 的 运行 结果 是 Array, 

其 内 容 根源 上 来 自 于 锚 点 被 填充 的 数据 。 


4.3, Tensor 运算 


通过 Tensor 进行 计算 操作 得 到 的 结果 仍然 是 Tensor。Tensor 参与 的 计算 操作 ,其 
操作 只 是 个 标记 ,并 没有 真正 使 用 计算 资源 进行 实际 运算 。 例 如 ,2X4 和 矩阵 与 4X3 矩阵 
相 乘 结果 必然 是 2X3 矩阵 ,并 不 需要 知道 矩阵 的 具体 内 容 。 

tc =tf.matmul… 


tc =ta +tb 


Tensor 参与 的 操作 ,其 计算 一 般 只 是 在 Shape 的 基础 上 进行 的 ,只 有 run 操作 除外 。 
TensorFlow 通过 run 操作 完成 Tensor 的 实体 化 (数据 化 ) ,在 run 操作 时 指定 需要 实体 
化 的 Tensor 列表 。 

a, b, c, ** =sess.run([ta，tb，tc…]，feed dict ={…]}) 

Tensor 与 Tensor 之 间 有 依赖 关系 ,为 了 计算 A, 必 须 先 获得 B 的 结果 ,这 就 是 依赖 。 
TensorFlow 会 分 析 依 赖 关系 ,执行 最 少 的 计算 以 得 结果 。 

# A 一 >B 一 >>C 一 >D, 则 run([B]) 只 会 执行 A 和 B。 

一 个 全 连接 网 络 Dense 的 内 部 依赖 关系 如 图 4-3 所 示 。 





图 4-3 一 个 全 连接 网 络 Dense 的 内 部 依赖 关系 


4.4 导入 实验 数据 


将 数据 导入 TensorFlow 程序 的 方法 主要 有 3 种 。 


1. 使 用 Feeding 机 制 

Feeding 机 制 可 以 把 数据 注入 到 计算 图 中 的 任何 一 个 Tensor。 在 初始 化 时 ,通过 提 
供 数 据 给 run 函数 和 eval 函数 的 feed_dict 参数 。 

feeding 机 制 使 用 Python 代码 ,将 数据 文件 (如 音频 或 图 像 文 件 等 ) 转 化 为 Numpy 
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的 Array 数据 ,通过 赋值 给 run 函数 的 feed. diet 参数 中 的 某 个 张 量 , 变 为 TensorFlow 中 
的 张 量 。 

这 种 方法 的 核心 问题 是 如 何 将 数据 文件 的 内 容 读 取出 来 ,转换 为 Numpy 的 Array 
对 象 。 

2. 从 文件 中 读 取 数 据 

在 TensorFlow 计算 图 的 起 始 处 ,使 用 输入 pipeline 从 文件 中 读 取 。TensorFlow 自 
带 的 数据 读 取 组 件 ,通过 一 系列 针对 Tensor 的 文件 操作 、 数 据 操作 ,获得 未 来 将 包含 数 
据 的 Tensor。 只 有 被 计算 后 才 会 产生 真正 的 操作 ,否则 只 是 在 做 一 些 标记 。 

3. 预 加载 数 据 

TensorFlow 计算 图 的 参数 和 变量 预先 存放 了 所 有 的 数据 (这 种 方法 适用 于 加 载 小 
的 数据 集 ) 。 


4.4.1 NumpyArray 方法 


1. 图 片 

从 PIL 读 取 图 片 .将 PIL 的 图 片 对 象 直接 给 Numpy 的 构造 函数 ,直接 得 到 Numpy 
的 Array 对 象 。 

后 期 处 理 : 数据 格式 转换 ,数组 变 为 矩阵 等 。 


2. 二进制 

读 取 string 并 转 为 bytes: 

buf -bytes(f.read()) 

将 bytes 按照 特定 格式 ,解释 为 一 维 的 Numpy 的 Array XE : 
floats -numpy.frombuffer(buf, dtype- numpy.float32) 

将 数组 变 为 矩阵 ， 


floats -numpy.reshape(floats[3:], [freq, time], order-'C') 


ecc 
Teno Lus 


4.4.2 TensorFlow 组 件 方法 


1. 获得 文件 列表 ist) 

选择 1: Python 中 的 list( 自 己 在 Python 范畴 内 搞定 ) 。 

选择 2: TensorFlow 的 组 件 ,glob_string 是 类 似 "./ * .jpg" 这 种 可 以 带 通 配 符 的 字 
符 串 。 


| 
它 只 是 个 标记 ,并 没有 真正 地 进行 匹配 。 
2. 将 文件 列表 传 给 input. producer 





3. 用 reader 从 input producer 中 读 取 文件 名 (key) 和 文件 内 容 Cvalue) 





4. 对 读 取 的 内 容 进行 解码 ,有 许多 默认 的 解码 器 和 通用 解码 器 
TE 


decode_raw 和 Numpy 的 frombuffer 类 似 。 


5. 得 到 的 是 一 个 数组 ,可 以 用 slice, reshape 等 操作 进一步 将 其 塑造 成 需要 的 结果 


至 此 img 就 是 一 个 3 阶 的 Tensor 了 。 
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4.4.3 TensorFlow 示例 


Tensor 只 存在 于 网 络 结构 中 ,只 有 形 没 有 内 容 。Tensor 的 运行 结果 是 Array ,其 运 
行 对 象 来 自 于 锚 点 的 被 填充 数据 。 下 面 用 手写 0 ~ 9 阿拉 伯 数 字 的 MNIST 数据 集 的 
TensorFlow 实验 过 程 ,来 说 明 TensorFlow 的 计算 过 程 。 

MNIST 数据 集 包含 70 000 张 手写 数字 图 片 ,每 张 图 片 大 小 是 28 像素 X28 像素 。 
MNIST 数据 被 分 为 3 部 分 ,其 中 55 000 张 用 于 训练 (MNIST. Train) ,10 000 张 用 于 测试 
(MNIST. Test) ,5 000 张 用 于 验证 数据 (MNIST. Validation)。 实 验 采 用 TensorFlow 框 
架 来 建 模 和 训练 一 个 3 层 神经 网 络 , 完 成 这 些 图 片 的 自动 识别 过 程 。 实 验 用 的 源 代码 见 
本 章 的 参考 文献 [3]。 

首先 ,构建 网 络 结构 (计算 流程 ), 预 留用 于 数据 输入 、 参 数 配 置 的 锚 点 。 





其 次 ,从 官方 获得 MNIST 的 Array 数据 ,填充 锚 点 ,运行 计算 图 。 


使 用 自己 的 标签 数据 ,形式 如 下 : 





train. step 的 返回 被 丢弃 ,cross_entropy 的 返回 是 loss ffi. 
sess. runO 函数 的 参数 列表 中 ,人 们 可 以 设 定 希望 计算 的 Tensor, 从 而 在 返回 值 中 
获得 它们 。 这 里 ,可 以 添加 一 个 计算 精确 度 (accuracy) 的 Tensor: 


在 运行 时 ,将 精确 度 加 入 参数 列表 。 
值得 注意 的 是 ,TensorFlow 会 使 用 尽 可 能 少 的 计算 ,来 获得 输入 Tensor 的 计算 结 
果 。 例 如 : 





这 时 ,sess. run([Lb]) 会 计算 b A a 的 值 ,而 不 会 计算 c 的 值 。 因 为 b 的 计算 不 需要 c 
的 参与 。 


45 TensorBoard 示例 


TensorBoard 是 TensorFlow 自 带 的 图 形 化 工具 ,用 于 图 形 化 展示 神经 网 络 训练 的 
效果 。 图 形 化 展示 的 内 容 包括 网 络 结构 .网 络 内 部 的 权重 和 偏 置 参数 的 分 布 ,以 及 每 一 
层 的 输入 结果 和 最 终 的 输出 结果 。 

我 们 还 是 使 用 MNIST 数据 集 的 TensorFlow 实验 ,训练 手写 数字 图 片 识别 的 神经 
网 络 。 将 训练 的 结果 用 TensorBoard 展示 ,这 需要 补充 一 些 操作 。 

在 model. py 中 ,增加 了 summary 的 内 容 。 只 有 这 样 ,才能 通过 TensorBoard 展示 o 
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1. 从 Gitlab 上 下 载 源码 
使 用 git 或 者 下 载 压缩 包 , 将 代码 放 到 目录 /tdExample/ 下 。 


2. 解压 数据 
/tfExample/data 下 有 压缩 过 的 数据 ,分 3 个 文件 存储 ,打开 mnist. zip, 将 其 中 的 
mnist. mat 解压 出 来 ,使 得 存在 文件 /tfExample/data/mnist. mat, 


3. 运行 训练 过 程 
运行 命令 : 


该 过 程 会 生成 两 个 文件 夹 : 一 个 是 /tfExample/log, 另 一 个 是 /tfExample/metaEmbed。 


4. 打开 TensorBoard 
运行 命令 : 


该 命令 会 在 本 机 的 6006 端口 打开 网 页 服务 ,从 而 可 以 从 网 页 端 看 到 训练 进程 中 的 
各 种 参数 和 信息 。 


5. 打开 浏览 器 
在 地 址 栏 中 输入 : 


TensorBoard 展示 效果 如 图 4-4 所 示 。 
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4-4  TensorBoard 展示 MNIST 数据 集训 练 效果 
4.6 小 结 


本 章 介 绍 了 深度 学 习 的 程序 框架 TensorFlow, 以 及 如 何 使 用 TensorFlow 导入 数据 
处 理 , 并 给 出 一 个 MNIST 数据 的 处 理 示 例 。 最 后 ,介绍 TensorFlow 自 带 的 
TensorBoard 图 形 化 界面 。TensorBoard 可 以 直观 地 展示 网 络 的 训练 效果 、 内 部 的 权重 
分 布 等 重要 信息 ,深入 理解 网 络 的 演化 过 程 , 以 及 最 终 的 训练 效果 。 
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Keras 是 由 谷歌 公司 的 研究 员 Francois Chollet 开发 的 一 套 高 层 框架 ,进一步 封装 
TensorFlow, TensorFlow 1.0 版 本 已 经 集成 了 Keras 框架 。 目 前 Keras 版 本 为 2.0。 


544, Keras 


Keras 是 对 TensorFlow, Theano 和 CNTK 的 进一步 封装 ,抽取 共性 ,二 选 一 。 
Keras 设计 采用 极 简 主义 原则 ,是 一 套 高 度 模块 化 的 神经 网 络 架 构 库 。Keras 具有 方便 
使 用 的 特点 ,如 简洁 的 网 络 定义 方式 ,常用 技巧 的 封装 。 同 时 ,Keras 又 保留 足够 的 扩展 
性 ,可 以 自行 实现 各 种 层 (Layers) 。 

机 器 学 习 模 型 .训练 .预测 过 程 如 图 5-1 所 示 。 


学 习 | 推断 
数据 i 输入 :X P 
g^» 
预测 : x 


快速 和 重 棒 的 预测 推断 与 追踪 反馈 


5-1 机 器 学 习 模型 .训练 .预测 过 程 
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52, Keras 组 织 结构 


5.2.1 Models 


Keras 核心 的 数据 结构 称 为 Model, 如 图 5-2 所 示 , Model 是 组 织 层 的 一 种 方式 。 最 
简单 的 Model 类 型 是 序列 模型 (Sequential Model) 。 序 列 模型 是 指 串 接 很 多 层 的 管道 。 





Model 


Sequential (Comm ) 


A 5-2 Keras 核心 的 数据 结构 Model 











5.2.2 Core Layers 


Keras Ë% 4» 2 (Core Layers) 包括 Dense, Activation, Dropout, Flatten, Reshape, 


Permute, Repeat Vector, Lambda, Activity Regularization, Masking. 
5.2.3 Layers 


Keras 非 核心 层 包 括 Convolutional Layers, Pooling Layers, Locally-connected 
Layers, Recurrent Layers, Embedding Layers, Merge Layers, Advanced Activations 


Layers, Normalization Layers, Noise Layers. 
5.2.4 Activations 


Keras 激活 函数 (Activations) 包括 softmax, elu, softplus, softsign, relu, tanh, 
sigmoid,hard sigmoid,linear 等 ,函数 表示 式 如 下 : 


softmax (x), elu(x, alpha-1.0), softplus(x), softsign(x), relu(x, alpha-0.0, 
max value-None), tanh(x), sigmoid(x), hard sigmoid (x), linear (x) 


"a 
X 63 > 
`. s 


$$$ AlphaGo 406963 A 4 OB A 4b — est Tesortlow RR 


5.2.5 Optimizers 


Keras 优化 器 (Optimizers ) 包括 SGD, RMSprop, Adagrad, Adadelta, Adam, 
Adamax, Nadam, Optimizer. 

Nadam 采用 Nesterov 加 速 梯度 算法 。 基 本 思想 是 模型 的 参数 更 新 是 基于 之 前 的 所 
有 梯度 (全 局 的 信息 ) ,而 不 是 仅 基 于 当前 的 梯度 (局 部 信息 ), 训 练 收敛 的 速度 是 可 以 进 
一 步 提升 的 。 

RMSprop、Adagrad、Adam 都 是 自 适应 调整 学 习 率 的 算法 。 


5.3, Keras 实践 


5.3.1 Keras 安装 


首先 ,安装 Keras 要 求 的 后 端 软件 ,如 Theano, TensorFlow, CNTK 等 。 这 里 以 
TensorFlow 为 例 , 可 访问 https://www. tensorflow. org/install/ 。 

选择 安装 TensorFlow 的 操作 系统 环境 ,如 Linux, MacOS, Windows 等 。 

如 果 需 要 GPU 的 支持 , 则 不 能 默认 安装 ,从 网 页 给 出 的 一 张 列表 中 ,选择 合适 的 
pip 包 。 

在 Linux 环境 下 ,安装 Keras 命令 如 下 : 


$ sudo apt-get install libhdf5-10 libhdf5-dev 
在 Windows 环境 下 ,安装 Keras 命令 如 下 : 
$ pip install keras numpy scipy pyyaml h5py 


至 此 ,Keras 安装 完毕 。 
如 果 在 安装 运行 中 ,系统 报 缺 失 xxx module 的 错误 , 则 说 明 需 要 额外 的 程序 包 支 持 
的 功能 。 此 时 ,需要 自己 寻找 缺少 的 包 是 什么 ,再 逐一 安装 。 
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5.3.2 Keras 使 用 


1. 定义 网 络 





网 络 结构 是 以 一 个 栈 的 形式 给 出 ,一 层 接 一 层 。 

第 一 层 的 input. shape/input. dim 参数 指定 输入 层 的 大 小 。 例 如 ,这 里 指定 一 个 784 
维 的 输入 。 

input_dim 总 是 存在 于 第 一 层 的 参数 列表 ,而 与 第 一 层 是 什么 类 型 的 网 络 无 关 。 

最 后 一 层 一 般 是 softmax 作为 输出 层 。 此 例 中 给 出 了 lo 个 输出 , 即 表 示 该 网 络 解决 
10 类 分 类 的 问题 。 


2. 编译 网 络 
给 定 网 络 的 训练 目标 ,给 定 网 络 的 优化 算法 如 下 : 


optimizer 是 指使 用 rmsprop 算法 进行 梯度 下 降 。 
loss 是 指 网 络 使 用 多 类 交叉 箭 作为 优化 目标 。 
metrics 是 指 在 训练 过 程 中 ,我 们 希望 观察 到 准确 度 这 个 指标 是 如 何 变 化 的 。 


3. 训练 网 络 





上 述 代码 产生 1000 个 符合 input. shape 的 数据 和 标签 ,然后 传 给 model. fit. JA ifj JF 
始 迭 代 训 练 过 程 。 
训练 过 程 会 动态 输出 损失 (loss) 和 准确 度 (accuracy) 等 参数 。 


4. 评估 网 络 和 数据 预测 
代码 如 下 : 


5. 保存 / 载 信 网络 
将 保存 / 载 入 网 络 结构 与 参数 ,采用 hdf5 格式 保存 网 络 参 数 数据 ,代码 如 下 : 


54 小 结 


本 章 介绍 了 Keras 的 基本 概念 及 安装 和 使 用 。Keras 通过 封装 TensorFlow ,大 大 提 
高 了 TensorFlow 的 易 用 性 。 


参考 文献 
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[3] Keras 中 文 文档 CEB/OL]. https: / /keras-cn. readthedocs. io. 
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64, 声控 智能 


语音 控制 功能 是 指 通过 语音 ,给 手机 发 出 语音 指令 ,手机 APP 自动 识别 指令 种 类 ， 
进行 相应 的 控制 。 下 面 介绍 一 个 用 语音 控制 蓝牙 音响 的 智能 硬件 的 例子 。 


6.1.1 语音 指令 


该 蓝牙 音响 的 语音 指令 规定 如 下 。 其 中 字母 为 录音 的 文件 的 名 称 。 
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6.1.2 语音 时 频谱 图 


时 频谱 图 是 对 语音 文件 进行 短 时 伟 里 叶 变 换 (STFFT) 获 得 的 。 变 换 以 后 ,更 能 体现 
语音 的 特征 ,便于 后 端 处 理 。 一 个 典型 的 语音 时 频谱 图 如 图 6-1 所 示 。 





6.1.3 语音 文件 录音 


用 笔记 本 或 者 手机 录 下 以 上 24 条 语音 指令 ,生成 对 应 指令 的 . mp3 文件 ,文件 名 即 
为 指令 名 字 编 号 ,如 图 6-2 所 示 。 


101.6.161.120 » Public » bluetooth » raw » 2006990126 
^ Damp 同 bmp3 
图 bbmp3 加 cmp3 
同 ccmp3 E d.mp3 
图 emp3 [E ee. mp3 
E mp3 E f.mp3 
E mp3 E gg-mp3 
E h.mp3 同 hhmp3 
图 imp3 [8] i. mp3 
[Si ii mp3 (iii mp3 
同 jimp3 IB ij. mp3 
E mp3 E mp3 
V [8] I. mp3 [8] ll. mp3 
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6.2, 实验 过 程 


6.2.1 语音 数据 预 处 理 


录音 文件 因为 来 源 于 不 同 的 地 方 ,录音 格式 有 *.m4a、 *. wav, *. mp3, *. mp4, 
* .3gpp 等 ,需要 进行 统一 处 理 。 

Spectrum 项 目 源 代码 用 来 处 理 不 同 的 各 种 格式 的 录音 文件 ,并 转换 为 统一 的 
*. wav 格式 ,生成 语音 频谱 图 。 实验 前 先 下 载 Spectrum 代码 ,下 载 地 址 为 http:// 
gitlab. icenter. tsinghua. edu. cn/saturnlab/spectrum。 

这 里 ,Spectrum Jil H H] ffmpeg 工具 把 各 种 格式 的 录音 文件 转换 为 统一 的 * . wav 格 
式 的 数据 ,便于 统一 处 理 。 

ffmpeg 程序 是 一 套 跨 平台 的 音 视 频 媒体 的 录制 格式 转换 和 流 媒体 的 软件 ,下 载 地 
址 为 https://ffmpeg. org/。 

1. Spectrum 项 目 编译 

Spectrum 项 目 运行 在 Linux 上 ,生成 频谱 图 的 整个 流程 还 需要 ffmpeg 和 fftw3 T. 
具 的 支持 。 安 装 ffmpeg 的 方法 如 下 : 


$ sudo apt-get update 
$ sudo apt-get install ffmpeg 


安装 fftw3 的 方法 如 下 : 


$ sudo apt-get install libfftw3-dev 


Spectrum 项 目 源 代 码 是 使 用 scons 管理 的 ,其 中 scons 类 似 于 make 命令 , 而 
SConscript. p 类 似 于 makefile 文件 。scons 使 用 Python 编写 ,所 以 之 前 需要 安装 好 
Python。 

安装 scons 的 方法 如 下 : 





$sudo apt-get install scons 


如 果 提 示 没 有 安装 编译 工具 , 则 先 安装 使 用 编译 工具 : 
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2. 统一 录音 格式 
Spectrum 项 目的 convert, wav. sh 脚本 完成 统一 格式 的 操作 。 


Spectrum 项 目 用 ffmpeg 工具 对 单个 录音 文件 进行 处 理 。ffmpeg 程序 生成 标准 wav 


convert_wav. sh 脚本 对 录音 文件 进行 批量 转换 。 该 脚本 会 自动 找到 input_dir 目录 
下 的 所 有 文件 (包括 子 目 录 ) ,尝试 使 用 ffmpeg 命令 进行 格式 转化 。 如 果 转 换 成 功 , 则 保 
存 新 格式 的 文件 ,否则 失败 则 跳 过 。 所 有 转换 后 的 新 格式 文件 会 统一 放置 在 output_dir 
目录 下 ,该 目录 没有 子 目 录 。 

convert wav. sh 脚本 使 用 的 方法 如 下 : 


3. 时 频谱 图 生成 
Spectrum 项 目的 convert. bin. sh 脚本 完成 批量 生成 时 频谱 图 的 操作 。 


可 以 修改 convert. bin. sh 的 一 些 选项 来 改变 转化 的 参数 ,使 用 方法 和 wav 转换 类 
似 ,只 是 最 后 多 加 了 一 项 指定 程序 路 径 的 项 ,用 法 如 下 : 


Spectrum 项 目 在 有 SConstruct 文件 的 目录 下 运行 scons 后 , 即 可 在 spectrum. p/bin 
目录 下 找到 可 执行 程序 Spectrum。 将 其 作为 脚本 的 第 3 个 参数 即 可 。 


6.2.2 语音 识别 网 络 


接 下 来 需要 完成 语音 识别 神经 网 络 的 设计 方案 。 我 们 使 用 Keras/TensorFlow f£ 
JR ,完成 语音 识别 神经 网 络 的 设计 与 实现 。 
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语音 识别 神经 网 络 可 以 采用 两 种 类 型 的 网 络 , 即 三 层 的 FCN 和 8 层 的 CLDNN ,每 
个 网 络 都 是 24 个 softmax 输出 。 


1. 三 层 全 连接 网 络 
为 了 简单 起 见 ,实验 用 三 层 全 连接 网 络 ,如 图 6-3 所 示 。 











6-3 ”实验 用 的 三 层 全 连接 网 络 


该 网 络 采用 最 简单 的 多 层 全 连接 的 网 络 模 式 , 一 共有 三 层 。 每 一 层 ( 设 为 第 i 层 ) 隐 
含 层 (也 包括 输入 层 ) 的 输入 Z, 会 经 过 一 个 线性 环节 W, 和 4;, 得 到 输出 Wz 十 b, 然 后 将 
输出 输入 到 一 个 ReLU 环节 进行 运算 ,得 到 这 层 神 经 网 络 的 真实 输出 ,表示 为 0:。 其 中 
Zia — Oi。 在 输出 层 , 会 进行 类 似 的 处 理 , 不 过 最 终 的 输出 会 进入 一 个 softmax 环节 ,将 
计算 所 得 的 结果 归 一 化 。 

2. CLDNN 

实验 用 的 语音 识别 网 络 结构 参考 谷歌 公司 的 CLDNN 结构 。CLDNN 由 三 部 分 组 
成 : 卷 积 层 ,长短 时 记忆 网 络 (Long Short-Term Memory, LSTM) 和 全 连接 层 。 

实验 采用 类 似 于 CLDNN 的 8 层 网 络 ,包含 一 个 傅 里 叶 变 换 层 ,加 上 4 个 卷 积 网 络 ， 
再 加 上 双向 LSTM 层 , 最 后 是 两 个 全 连接 层 。 整 体 结构 如 图 6-4 所 示 。 
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6-4 实验 用 的 8 层 CLDNN 
































3. AURA eR 5k 

在 训练 过 程 中 ,最 终 网 络 的 输出 结果 会 与 实际 所 对 应 的 标签 进行 对 比 。 有 具体 的 方式 
是 通过 一 个 交叉 炉 的 公式 ,计算 损失 函数 。 神 经 网 络 的 训练 过 程 就 是 损失 函数 的 最 小 化 
过 程 。 

交叉 炉 形 式 的 损失 函数 表示 如 下 : 

Hy (y) 一 一 >) xiln y; 

其 中 ,> 表示 训练 样本 对 应 的 标签 ,> 表示 神经 网 络 的 输出 。 

实际 中 还 会 在 损失 函数 中 加 上 一 些 正则 项 (regularizer) 或 惩罚 项 (penalty term) ,该 
过 程 称 为 正则 化 (regularization) 。 目 的 是 为 了 防止 过 学 习 (over-fitting)。 常 见 的 惩罚 项 
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6.2.3 TensorFlow/Keras 的 使 用 


为 了 便于 上 手 ,代码 框架 采用 TensorFlow/Keras 框架 。 
用 Keras 定义 的 语音 识别 网 络 结构 ,定义 在 Keras 的 Model 中 ,如 下 所 示 。 





1. GPU 工作 站 准备 

实验 采用 微软 Azure 云 提供 的 带 GPU 的 Windows Server 2012 虚拟 机 。 该 GPU 
服务 器 虚拟 机 上 已 经 安装 了 Python 3.5 和 TensorFlow 1.0 版 本 。 在 GPU 虚拟 机 中 使 
用 Python 前 ,需要 事先 激活 Python 3.5 环境 。 

如 果 有 带 GPU 卡 的 Windows Server 2012 工作 站 ,可 以 下 载 CUDA Toolkit. 
CUDA Toolkit 是 NVIDIA 公司 提供 的 GPU 编程 基础 工具 包 , 目 前 版 本 是 8. 0, 下 载 地 
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在 神经 网 络 训练 过 程 中 ,为 了 加 速 深度 学 习 过 程 , 安 装 CUDNN 库 。CUDNN 库 的 
目前 版 本 是 6. 0, 下 载 地 址 为 


解压 出 来 是 名 为 CUDA 的 文件 夹 ,里 面 有 bin include 和 1lib 3 个 目录 。 将 这 3 个 目 
录 中 的 文件 夹 复制 到 CUDA 的 安装 路 径 下 ,覆盖 对 应 的 bin, include 和 lib X f/F 3c. 
CUDA 默认 的 安装 路 径 为 


2. 数据 增强 

在 神经 网 络 训练 过 程 中 ,为 了 解决 训练 样本 不 足 和 网 络 的 抗 噪 性 问题 ,我们 采用 数 
据 增强 (Data Augmentation ) 方 法 。 数 据 增强 方法 是 在 原始 训练 数据 上 加 上 高 斯 白 噪 声 
等 扰动 信号 ,增加 可 供 训练 的 样本 数目 。 

实验 中 ,SOX 程序 (SOund eXchange) 用 于 对 原始 语音 录音 文件 ,进行 添加 噪声 、 混 
响 等 扰动 信号 ,增加 可 供 训练 的 样本 数目 。 

SOX 程序 的 下 载 地 址 为 


3. 实验 过 程 

具体 实验 步骤 和 过 程 如 下 。 

D 下 载 audioNet 项 目 代码 

用 git 或 者 直接 在 网 页 下 载 压 缩 包 。 下 载 地 址 为 


2) 下 载 训练 数据 
用 于 训练 的 数据 是 经 过 ffmpeg 格式 统一 后 的 音频 文件 , 形 如 10000_01. wav, DAJE Ai 
包 的 形式 给 出 。 
alat 
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3) 创建 models 目录 
假设 audioNet 代码 下 载 解压 后 的 目录 是 /audioNet/ ,创建 models 目录 ,用 于 保存 训 
练 过程 中 暂 存 的 模型 文件 。 


4) 制定 训练 数据 的 目录 

修改 /audioNet/train. py, 将 其 中 涉及 目录 路 径 的 地 方 , 改 成 对 应 平台 的 目录 。 例 如 
在 Windows F . H 3€ g^. NN models\\”; 在 Linux 下 目录 为 “. /models/”。 

E i /audioNet/augmentation/client. py 的 最 后 几 行 ,将 其 涉及 数据 文件 目录 的 地 方 
改 成 相应 的 位 置 。 例 如 ,如果 数 据 放 在 D 盘 , 就 得 改 成 类 似 于 “D:\\data\\ * . wav”。 

5) 运行 训练 与 测试 

运行 代码 train. py: 


运行 后 会 打开 一 个 开启 训练 的 进程 , 它 在 等 待 数据 。 
新 建 一 个 命令 行 窗口 ,运行 client. py: 


运行 后 会 新 建 几 个 进程 , 读 取 client. py 末尾 提供 的 train 的 目录 文件 ,然后 传 给 
train. py 的 进程 训练 , 读 取 client. py 末尾 提供 的 test 的 目录 文件 ,然后 进行 测试 。 训 练 
的 效果 会 实时 显示 。 

训练 的 迭代 轮 次 可 以 在 train. py 中 修改 ,默认 是 20 轮 保存 一 次 模型 文件 。 保 存 模 
型 文件 的 代码 如 下 : 





图 6-5 网 络 模型 文件 
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训练 完毕 后 ,选取 models 文件 夹 的 最 新 的 save xx. ho 文件 。 

6) 推断 过 程 

推断 过 程 在 predict. py 文件 中 ,首先 新 建 一 个 KerasModel 类 ,接着 调用 load weights 
函数 ,加 载 训练 过 程 中 保存 的 模型 文件 ,然后 调用 modelA. predict() 函 数 , 给 出 推断 的 
结果 。 





7) 运行 网 页 端 
修改 /audioNet/ webfront. py 的 第 86 行 ,将 model 文件 路 径 设 定 为 当前 生成 的 
model 文件 中 的 一 个 。 之 后 ,也 会 使 用 该 模型 文件 作为 推断 模型 。 代 码 如 下 : 





运行 命令 : 





运行 后 将 打开 一 个 网 页 服务 ,可 以 提供 在 线 语音 识别 服务 。 
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本 章 介绍 了 一 个 语音 控制 功能 的 实现 ,主要 有 训练 数据 预 处 理 过 程 和 深度 神经 网 络 
的 训练 过 程 两 大 部 分 。 

训练 数据 的 预 处 理 过 程 包括 语音 指令 的 设计 、 录 音 文件 采集 .音频 文件 格式 转换 与 
时 频谱 图 生成 。 

深度 神经 网 络 的 训练 过 程 包括 网 络 结构 设计 、 损 失 函 数 设 定 `.TensorFlow/Keras 的 
实现 和 数据 增强 等 技术 。 
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实验 使 用 3 层 FCN 和 8 层 CLDNN 做 对 比 测试 ,验证 网 络 架 构 对 识别 的 效果 影响 。 


普遍 来 说 ,采用 数据 增强 技术 将 使 得 网 络 的 鲁 棒 性 和 抗 噪 性 更 好 。 
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深度 学 习 最 重要 的 功能 是 进行 推断 (Inference)。 我 们 可 以 把 推断 功能 放 在 网 站 端 、 
云端 或 服务 器 端 ( 称 为 在 线 推断 ), 也 可 以 把 推断 功能 放 在 移动 端 (又 称 为 离线 推断 ) 。 

在 线 推断 的 优势 是 可 以 随时 更 新 神经 网 络 的 参数 ,用 户 不 需要 下 载 模型 文件 ,只 需 
要 调用 Web API 即 可 完成 。 

离线 推断 的 优势 是 模型 文件 直接 部 署 在 终端 设备 ,没有 网 络 通信 的 延迟 ,适合 网 络 
通信 不 畅通 或 者 没有 网 络 的 情况 。 


7.4, 网 站 端 一 在 线 推断 


7.1.1 云 知音 网 站 功能 


移动 终端 (Client) 只 需要 打开 浏览 器 ,利用 浏览 器 完成 如 下 功能 。 
(1) 调用 浏览 器 API 录音 。 

(2) 发 送 录音 文件 。 

(3) 接收 云端 (Server) 的 反馈 并 显示 。 

云 知音 网 站 (Server) 的 功能 如 下 。 

(1) 接收 录音 文件 。 

(2) 调用 服务 端 程序 。 

(3) 运行 Keras/TensorFlow, 对 语音 文件 进行 推断 。 
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(4) 返回 结果 。 
由 于 指定 的 功能 相对 简单 ,为 了 便于 开发 .我们 采用 Flask 框架 架构 语音 识别 功能 。 


7.1.2 Flask 网 站 搭建 


搭建 基于 Flask 的 网 站 ,准备 virtualenv。 安 装 方法 (下 面 两 条 命令 适用 于 Mac 和 


如 果 使 用 Ubuntu, 请 尝试 : 


如 果 使 用 CentOS, 请 尝试 : 


安装 好 virtualenv 后 ,可 以 创建 一 个 项 目 文件 夹 , 利 用 virtualenv 命令 在 其 下 创建 





现在 ,可 以 根据 项 目的 具体 工作 环境 ,激活 相应 的 环境 。 在 Linux 下 , 按 如 下 做 : 


现在 ,只 需要 输入 以 下 命令 来 激活 virtualenv 中 的 Flask: 


eco 
illaemcs peexeeexG 一 ahiaaoaa 0000 


7.1.3 Flask+Keras 实现 


webfront. py 是 一 个 示例 性 的 Flask 程序 ,用 于 演示 语音 在 线 推断 功能 。 
首先 ,定义 字典 表 DICT。 
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7.2, 移动 端 一 离线 推断 


7.2.1 移动 端的 网 络 模型 文件 


1. 网 络 模型 文件 转换 
TensorFlow 作为 在 GPU 工作 站 或 高 性 能 服务 器 上 使 用 的 深度 学 习 框架 ,通过 在 数 


x 
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据 集 上 训练 生成 的 深度 神经 网 络 模型 ,可 以 转换 为 在 移动 设备 上 能 够 使 用 的 网 络 模型 
文件 。 

为 了 能 够 在 安 卓 移动 终端 使 用 TensorFlow 训练 的 模型 文件 , TensorFlow 提供 了 一 
A TUE ,方便 将 网 络 模型 文件 从 用 于 训练 的 工作 站 上 导出 。 

同时 ,TensorFlow 提供 了 模型 的 优化 工具 ,降低 空间 消耗 ,便于 在 移动 平台 上 使 用 。 

网 络 模型 文件 的 导出 过 程 ,分 为 Graph_def 文件 生成 .model. ckpt 文件 生成 、 冻 图 和 
优化 等 几 个 环节 。 


2. 生成 model. pb 文件 
使 用 TensorFlow 创建 好 网 络 模型 ,给 变量 赋值 后 ,使 用 代码 生成 gDef 对 象 : 





gDef 是 一 个 protobuf 对 象 ,可 以 通过 两 种 方式 将 其 转化 为 字 节 序列 : 





安 卓 移动 终端 需要 的 是 不 可 读 的 二 进 制 编码 形式 ,所 以 采用 SerializeToString O 77 
法 ,将 其 保存 到 xxx. graph. def. pb 文件 中 : 


注意 : 在 一 个 graph 中 ,权重 是 以 变量 (variable) 的 形式 提供 的 ,gDef 对 象 不 会 保存 
权重 的 数值 。 另 外 ,在 gDef 对 象 中 ,通常 会 包含 很 多 我 们 不 想 要 的 节点 。 


3. 生成 model. ckpt 文件 

通过 TensorFlow 框架 生成 的 网 络 模型 ,可 以 很 方便 地 用 saver 类 将 模型 文件 保存 为 
model. ckpt-xxx 文件 。 

Keras 是 基于 TensorFlow 框架 的 。 如 果 训 练 时 使 用 Keras 来 生成 网 络 模型 , 则 需要 
新 建 一 个 KerasModel 类 ,接着 调用 load. weights 函数 ,加 载 训练 过 程 中 保存 的 模型 文 
件 。 再 使 用 TensorFlow 的 saver 类 ,将 模型 文件 保存 为 model. ckpt-xxx 文件 。 这 样 就 


完成 了 Keras 模型 文件 到 TensorFlow 模型 文件 的 转换 。 
从 Keras 模型 文件 到 TensorFlow 模型 文件 的 转换 过 程 大 致 用 代码 描述 如 下 : 





采用 Keras 调用 后 端 TensorFlow 的 session ,将 Keras 模型 转换 为 TensorFlow 模型 
文件 。 





x 


4. 冻 图 和 优化 

这 时 ,就 有 了 两 种 形式 的 文件 , 即 * .pb Fl x. ckpt 文件 。 前 面 提 到 ,在 导出 的 graph 
的 * . pb 文件 中 ,权重 是 以 变量 (variable) 的 形式 提供 的 ,不 会 被 保存 。 而 且 ,graph 通常 
会 包含 很 多 我 们 不 想 要 的 节点 ,浪费 了 很 多 空间 。 

在 TensorFlow 的 python/tools 目录 中 ,TensorFlow 提供 了 freeze graph. py 和 
optimize_for_inference. py 工具 ,可 以 解决 上 述 两 个 问题 。 


其 中 ,freeze_graph. py 将 变量 转化 为 常数 (constant) ,解决 变量 的 问题 ;而 optimize for | 
inference. py 用 来 删除 无 用 节点 。 具 体 工具 的 用 法 ,参考 同 目录 下 对 应 的 xxx_test. py 就 可 
ur. 

Íreeze graph. py 命令 如 下 : 





Íreeze graph. py 的 使 用 说 明 如 下 : 





optimize for inference. py 的 使 用 说 明 如 下 : 
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工具 目录 下 还 有 许多 工具 ,用 法 参考 同 目录 下 对 应 的 xxx_test. py. 

TensorFlow 的 pip 包 一 般 不 包含 这 些 工 具 。 这 些 工 具 可 以 直接 手动 复制 过 来 使 用 ， 
但 是 要 考虑 一 些 依赖 关系 。 

其 中 ,optimize_for_inference. py 依赖 于 相同 目录 下 的 strip xxx. py 的 文件 ,所 以 需 
要 复制 如 下 3 个 文件 过 来 。 


同时 ,修改 optimize. for. inference. py 的 import 方式 ,将 


x 
xx 


freeze. graph. py 没有 需要 额外 处 理 的 依赖 。 

直接 使 用 经 过 freeze_graph. py 冻 图 后 的 模型 文件 ,而 没有 进一步 使 用 optimize for 
_inference. py 来 做 优化 处 理 。 

另外 ,在 该 例子 中 ,optimize_for_inference. py 有 点 问题 ,处 理 出 来 的 graph 会 导致 
session 的 创建 失败 。 


7.2.2 安 卓 平台 的 TensorFlow 库 生 成 


安 卓 平台 的 硬件 多 采用 ARM 处 理 器 ,并 且 安 卓 应 用 一 般 采 用 Java 语言 开发 。 而 
TensorFlow 的 核心 是 用 C++ 写 的 。 为 了 让 TensorFlow 代码 能 在 安 卓 平台 上 使 用 ,需要 
编译 出 相应 的 类 库 文件 , 即 libtensorflow_inference. so 和 libtensorflow-core. a。 


l. libtensorflow inference. so 


安 卓 应 用 是 采用 Java 语言 开发 的 , TensorFlow 框架 的 安 卓 Java 库 提供 Java 的 接 
O , 称 为 TensorFlowInferenceInterface 的 类 。 该 类 是 以 JNI(Java Native Invocation) 的 


形式 提供 。 
首先 ,使 用 Linux 下 的 Android Studio 作为 开发 环境 。 使 用 Android Studio 创建 一 
a 
a a5 "> 
. s 


v 


个 带 C++ 支持 的 新 项 目 。 

打开 项 目 后 ,在 Android Studio 的 SDK Manager 中 ,安装 NDK 和 一 些 Build Tool 
的 工具 。 

具体 需要 安装 哪些 工具 ,在 Build 过 程 的 报错 信息 中 会 有 提示 。 其 中 , Build Tool 对 
版 本 有 要 求 , 需 要 在 SDK Manager 界面 点 开 选 项 ,来 选择 指定 版 本 。 

下 载 tensorflow-master 的 压缩 包 ,或 者 用 git clone 下 载 某 个 版 本 的 TensorFlow ,将 
其 根 目录 置 于 Android 项 目 之 下 。 完成 之 后 的 目录 结构 形 如 : 


找到 README. md 文件: 


根据 README. md 的 说 明 ,整理 的 Android-Inference 的 操作 如 下 。 
(1) 在 Android Studio 中 ,找到 整个 Project 的 setting. gradle (位 于 myapp/setting. 
gradle) ,在 末尾 添加 : 





注意 : 其 中 ${/path/to/tensorflow_repo}) 需 要 自己 填写 ,最 好 填写 相对 目录 。 例 
如 ,本 例子 中 就 填写 为 . /tensorflow-master/tensorflow/contrib/android/cmake/。 

(2) 新 建 项 目 有 且 只 有 一 个 子 模块 ,一 般 称 为 app, 找 到 其 所 属 的 build. gradle, 

该 文件 最 末尾 有 一 个 由 花 括号 圈 起 来 的 dependencies 块 ,在 其 中 添加 两 行 : 





注意 : path 的 内 容 和 原 网 页 不 同 。 





o ere B6eRI—OS 777 
libtensorflow. inference. so 文件 打包 了 以 上 * .aar 文 件 ,并 放置 于 以 下 目录 : 


(3) 重启 syncgradle, 或 者 重启 Android Studio。 目 的 是 重新 扫描 gradle 的 配置 
Xd. 
此 后 ,应 该 可 以 看 到 Android Studio 找到 了 一 个 新 的 子 模块 : 


(4) 修改 TensorFlow-Android-Inference 所 属 的 build. gradle, 


2. libtensorflow-core. a 

现在 的 目标 是 新 建 过 程 编译 出 TensorFlow 的 核心 库 libtensorflow-core. a。 由 于 编 
译 过 程 很 长 ,所 以 build. gradle 默认 是 不 编译 的 。 现 在 确实 要 编译 核心 库 ,我们 仅 需要 根 
据 build. gradle 注释 ,找到 被 // 注 释 的 一 行 , 删 除 // 就 可 以 了 。 

同时 ,从 注释 中 也 可 以 看 出 ,这 个 操作 只 对 Linux 和 Mac OS 有 效 , 在 Windows 下 需 
要 自己 想 办 法 编译 出 libtensorflow-core. a, 然后 放 到 相应 的 文件 目录 下 : 


如 果 在 安 卓 移动 终端 上 使 用 这 个 * . a 文件 ,因为 安 卓 移动 终端 多 采用 ARM 硬件 ， 
需要 交叉 编译 出 针对 ARM 平台 的 TensorFlow 代码 。 所 以 ,建议 采用 Linux 工作 环境 。 

(1) 添加 可 用 平台 列表 。 

打开 TensorFlow-Android-Inference 的 build. gradle, 可 以 发 现 一 行 : 


这 说 明 TensorFlow 的 安 卓 版 只 支持 armeabi-v7a 这 个 平台 。 

ABICApplication Binary Interface) 是 指 应 用 程序 将 基于 哪 种 指令 集 进行 编译 。ABI 
可 供 选择 的 编译 选项 只 有 5 种 : armeabi,armeabi-v7a,arm64-v8a, x86 和 mips 。 其 中 ， 
armeabi 和 armeabi-v7a 为 最 常见 的 。 

armeabi 是 指 创建 以 基于 ARM «. v5TE 的 设备 为 目标 的 库 。 具 有 这 种 编译 目标 的 
浮 点 运算 使 用 软件 浮 点 运算 。 使 用 armeabi 创建 的 二 进 制 代码 ,将 可 以 在 任何 ARM ix 
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备 上 运行 。 

armeabi-v7a 是 指 创 建 支持 基于 ARM v7 设备 的 库 , 具 有 这 种 编译 目标 的 浮 点 运算 
将 使 用 硬件 FPU 浮 点 运算 指令 。 这 是 默认 选项 。 

arm64-v8a 是 指 64 位 ARM 设备 。 

在 项 目 中 的 build. gradle 添加 这 一 行 。build. gradle 没有 NDK 这 个 项 ,需要 自己 
写 ,位置 是 在 defaultConfig Fil, 

(2) 在 Android Studio 中 进行 创建 ,生成 输出 文件 libtensorflow-core. a。 

更 详细 的 过 程 ,请 参考 TensorFlow 主页 的 github 网 址 链接 : 


7.2.8 安 卓 应 用 的 TensorFlow 库 调用 


1. TensorFlowInferenceInterface 

安 卓 应 用 调用 TensorFlow 库 的 一 个 最 简单 的 方法 ,就 是 在 新 建 项 目 默认 的 Activity 
类 中 ,添加 一 个 成 员 变量 ,类 型 为 TensorFlowJnferenceInterface。 

首先 ,声明 使 用 TensorFlowInferenceInterface 类 型 。 


在 AndroidStudioIDE 中 , 使 用 快捷 键 Alt + Enter. 自动 添加 import 
TensorFlowInferenceInterface。 


添加 一 个 成 员 变量 ,类 型 为 TensorFlowJInferenceInterface ,名 为 tfii: 


然后 在 onCreate 函数 中 ,对 dii 进行 初始 化 。 


其 中 : 


getAssets() 方法 是 Activity 的 成 员 函 数 , 用 于 获得 AssetsManager 实例 。 
modelFilename 是 模型 文件 的 路 径 , 其 形式 为 "file:///android asset/xxx.x". 
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由 于 安 卓 应 用 跑 在 沙 盒 虚 拟 机 (Sandbox) 中 ,无 法 访问 绝对 路 径 。 所 以 ,以 上 文件 名 
会 被 映射 到 安装 目录 的 路 径 中 ,以 做 到 权限 控制 。 


2. 载 人 推断 模型 文件 

在 Android Studio 中 新 建 一 个 文件 夹 , 取 名 为 assets, 

然后 ,将 7. 2. 2 节 冻 图 后 的 网 络 模型 文件 xxx. pb 放 和 人 这 里 ,通过 文件 目录 file:/// 
android asset/xxx. x 访问 。 由 TensorFlowInferenceInterface 自己 负责 访问 该 模型 
文件 。 

在 这 里 ,这 个 函数 的 返回 值 只 有 0 代表 成 功 ,否则 都 是 失败 ,并 且 经 常 不 会 通过 返回 
值 告诉 失败 ,而 是 直接 闪 退 。 

具体 的 使 用 ,可 以 参考 ， 


./tensorflow/examples/android/src/org/tensorflow/demo/ 
TensorFlowImageClassifier.java 


7.2.4 安 卓 应 用 的 录音 功能 调用 


1. 录音 权限 申请 

在 安 卓 应 用 中 调用 手机 的 录音 (Record) 功 能 ,首先 需要 获得 系统 的 录音 权限 ,否则 
会 出 现 各 种 错误 提示 o 

权限 获取 操作 很 简单 ,需要 修改 app 项 目 中 的 manifest. xml 文件 。manifest. xml 作为 
一 个 xml 文 件 , 其 唯一 根 节点 名 为 manifest, 并 且 包 含 一 系列 属性 。 其 下 ,包含 Activity 
节点 和 其 他 节点 。 

添加 权限 使 用 的 节点 与 Activity 同 级 ,名 为 uses-permission。 添 加 录音 权限 的 声明 ， 


«uses-permissionandroid:name-"android.permission.RECORD AUDIO" /> 


添加 完 权 限 后 ,最 好 重新 编译 (Rebuild) 一 遍 ,确保 生效。 

在 某 些 手机 上 ,系统 会 在 安 卓 体系 之 外 建立 权限 管理 ,所 以 很 有 可 能 应 用 虽然 申请 
了 权限 , 但 是 仍然 需要 用 户 在 手机 界面 点 确认 ,或 者 在 权限 管理 里 面 手动 打开 权限 开关 。 

2. AudioRecord 方法 

使 用 AudioRecord 类 进行 录音 .好 处 是 录音 结果 就 是 内 存 中 的 数组 ,以 浮 点 数 、 整 数 
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的 数组 形式 给 出 ,方便 算法 处 理 。 

该 类 的 运行 模式 很 简单 : 申请 一 块 缓存 ,每 当 开 始 录音 ,就 把 数据 存 人 缓存 。 
AudioRecord 不 断 向 缓存 中 存 数 据 ,维持 运行 链条 。 如 果 缓 存 满 了 ,就 会 报 over running 
错误 。 

在 使 用 上 ,首先 要 确定 录音 的 几 个 参数 。 

CD 从 哪里 录 ? (只 有 一 个 选择 , MediaRecorder. AudioSource. MIC) 

(2) 采样 率 是 多 少 ? (比较 常 见 的 是 44 100) 

(3) 几 个 通道 ? (m p jH AudioFormat. CHANNEL_IN_MONO, 或 者 双 声 道 
AudioFormat. CHANNEL IN STEREO) 

(4) 每 个 样本 用 几 位 存储 ? (必须 用 PCM 格式 ,同时 可 以 选择 8b 整数 .16b 整数 或 
者 32b TP C. AudioFormat. ENCODING. PCM 8BIT/16BIT/FLOAT) 

确定 了 以 上 这 几 个 参数 ,就 可 以 调用 AudioRecord. getMinBufferSize() 来 获得 维持 
录音 所 需 的 最 小 缓存 空间 。 

将 上 述 参 数 ,以 及 缓存 大 小 输入 给 AudioRecord 的 构造 函数 ,就 可 以 创建 一 个 
AudioRecord 类 的 实例 ,例如 名 为 ar。 

调用 ar. startRecording() 就 可 以 启动 录音 。 如 果 什么 都 不 做 ,缓存 马上 就 会 被 十 
满 , 然 后 报错 。 

调用 ar. stop() 可 以 停止 录音 。 然 后 再 调用 ar. release() 可 以 释放 录音 所 占用 的 资源 
(例如 麦克 风 的 所 有 权 )。 

调用 ar. read() 可 以 从 缓存 中 取 数 据 ,从 而 清理 缓存 。 

为 了 维持 连续 运行 ,需要 通过 多 线程 十 循环 来 实现 录音 ,例如 : 





上 述 是 线程 函数 ,isRecording 是 控制 线程 运行 的 变量 。 在 线程 外 ,改变 isRecording 


为 false, 就 能 停止 录音 。 


7.2.5 快速 集成 开发 
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快速 集成 开发 是 将 以 上 内 容 实例 化 ,快速 完成 语音 识别 APP 的 制作 过 程 。 实 验 环 


境 如 下 。 
(1) Android Studio 2.3 版 本 及 以 上 。 


(2) 华为 MediaPad 2 平板 ,操作 系统 为 Android 6.0,CPU 型 号 麒麟 930。 


具体 实验 步骤 和 过 程 如 下 。 
(1) 下 载 androidAudioRecg 项 目 代 码 : 


http://gitlab.icenter.tsinghua.edu.cn/saturnlab/androidAudioRecg 


用 git 或 者 直接 在 网 页 下 载 压缩 包 。 


(2) 下 载 libtensorflow 的 jar 文件 和 libtensorflow_inference. so. 
获取 TensorFlow 的 依赖 包 libtensorflow 的 jar 文件 和 libtensorflow_inference. so 


的 系列 文件 压缩 包 , 如 图 7-1 所 示 。 
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armeabi-v7a/libtensorflow inference so 
x86/libtensorflow inference so 
xB6 64/libtensorflow inference so 





trane 








图 7-1 获取 libtensorflow 库 文 件 压缩 包 





下 载 地 址 为 


https://ci.tensorflow.org/view/Nightly/job/nightly- android/ 


(3) 将 jar 文件 与 压缩 包 内 容 放 到 androidA udioRecg 项 目的 app/libs 下 ,如 图 7-2 
所 示 。 





= D x 
e 
androidAudioRecg » app » libs vO "u*lüb P 
*^ s. 修改 日期 am 大 小 
arm64-v8a 2017/3/282003 — 文件 去 
armeabi-v7a 2017/3/28 20:03 xe% 
x86 2017/3/28 20:03 Sit% 
x86 64 2017/3/28 20:03 xx 
[l| libandroid tensorflow inference java 2017/3/28 11:22 Executable Jar File 30 KB 





7-2 放置 jar 文件 与 压缩 包 内 容 


如 果 TensorFlow 版 本 为 1. 2 以 上 ,TensorFlow 推断 接口 (Inference Interface) 在 
JCenter 中 可 以 直接 调用 ,只 需 在 build. gradle 文件 中 写 和 人 ,Gradle 会 自动 使 用 最 新 
tensorflow. aar 文件 。 


(4) 安装 Android Studio, 然 后 使 用 SDK Manager 安装 较 新 的 SDK ,如 图 7-3 所 示 。 


图 androidAudioRecg - [D:\androidAudioRecg] - [app] - ~\app\src\main\ava\net\saturn\audior.. 一 O X 
Fle Edit View Navigate Code Analyze Refactor Build Run BEBE vcs Window Help 

DO “€ XONAR e Ida  Isk&cConte (1 
Generate JavaDoc... 

New Scratch File... Ctrl Alt« Shift«Insert. 
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7-3 安装 较 新 的 SDK 


我 们 需要 Android 6. 0 以 上 版 本 ,选择 Android 6. 0 及 以 上 ,更 新 SDK 即 可 , 如 
图 7-4 所 示 。 
(5) 用 Android Studio 打开 项 目 。 
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Android SDK Location: | CUsers 人 dministrator 人 AppData\LocalAndroid\sdk 


I'SbKPlatforms] SDK Tools | SDK Update Sites | 


Each Android SDK Platform package includes the Android platform and eme 
pertaining to an API level by default. Once installed, Android Studio will 
automatically check for updates. Check "show package details" to display 
individual SDK components. 
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[_J Android 4.4 (KitKat) 19 
Android 4.3 (Jelly Bean) 18 
[ Android 4.2 (Jelly Bean) 17 
L] Android 4.1 (Jelly Bean) 16 





7-4 选择 Android 6.0 以 上 版 本 


(D 修改 manifest, 使 APP 具有 录音 权限 。 

© 编辑 APP 应 用 界面 的 布局 。 

@ 编辑 录音 按钮 的 属性 。 

(6) 插 上 手机 ,打开 手机 的 开发 者 模式 ,如 果 是 华为 手机 或 平板 ,操作 如 下 。 

QD. 进入 手机 的 设置 ,在 其 版 本 号 的 位 置 , 连 击 4 次 ,进入 开发 者 模式 。 

@ 进入 开发 者 模式 ,选择 打开 USB 调试 功能 。 

(7) 用 数据 线 连接 手机 到 计算 机 ,在 Android Studio 中 让 APP 在 手机 上 运行 调试 应 
用 。 


7.9, 小 结 


章 介绍 将 训练 好 的 神经 网 络 模 型 文件 ,分 别 部 署 在 网 站 端 和 移动 平板 端的 示例 。 
Wd Flask 框架 ,调用 Keras 模型 来 完成 推断 。 而 在 移动 平台 端 ,需要 事先 将 编译 
的 库 文件 放 入 指定 目录 。 

网 站 端 在 线 部 署 的 优势 是 可 以 不 断 采集 用 户 的 数据 ,扩大 语音 识别 的 训练 集 数 据 。 
同时 ,可 以 随时 更 新 神经 网 络 参数 。 用 户 不 需要 下 载 任何 文件 ,只 需要 打开 网 站 ,调用 
Web API 即 可 完成 。 

移动 端 离线 部 署 的 优势 是 可 以 离线 使 用 ,网 络 模型 直接 部 署 在 终端 设备 上 ,没有 网 
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络 通信 的 延迟 ,不 依赖 网 络 通信 。 
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在 第 7 章 , 已 经 初步 完成 了 基于 TensorFlow 的 语音 识别 功能 。 这 里 我 们 设计 实验 ， 
通过 PYNQ 开发 板 进行 Audio 录音 、 录 音 文 件 转换 、 发 送 录音 文件 和 接收 服务 器 反馈 。 


84, PYNQ 


8.1.1 PYNO 简介 


PYNQ(Python for Zynq) 是 Xilinx Zt s] ^E f — SX A XI RE GE E, Qn E 8-1 所 示 。 
PYNQ-Z1 开发 板 支持 PYNQ 项 目 , 这 是 一 个 新 的 开源 框架 ,使 嵌入 式 编 程 人 员 能 够 在 
无 须 设计 可 编程 逻辑 电路 的 情况 下 即 可 充分 发 挥 Xilinx Zynq All Programmable SoC 
(APSoC) 的 功能 。 

通过 PYNQ, 用 户 可 以 使 用 Python 进行 APSoC 编程 ,包括 对 FPGA 编程 ,并 且 代 码 
可 直接 在 PYNQ-Z1 上 进行 开发 和 测试 。 

PYNQ 外 接 传感器 模块 Pmod, 不 同 的 Pmod 具有 不 同 的 传感器 功能 ,如 光亮 度 、 超 
声波 、 温 度 和 湿度 测量 等 。 PYNQ 可 以 通过 Python 直接 采集 传感器 的 数值 ,并 进行 反应 
控制 。 


8.1.2 PYNO-Z1 开发 板 


首先 ,需要 了 解 安 装 PYNQ 板 的 软 硬 件 环境 。ZYNQ XC72020-1CLG400C 是 PYNQ 
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8-1 PYNQ 设备 结构 图 
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开源 框架 的 硬件 平台 ,支持 Python 编程 的 PYNQ-Z1 开发 板 。 

开发 板 硬 件 分 为 两 部 分 : 通用 编程 部 分 (Processing System, PS) 和 可 编程 迎 辑 器 件 
部 分 (Programmable Logic. PL). 

1. ARM A9 CPU 部 分 

(1) 双核 Cortex-A9 处 理 器 , 主 频 为 650MHz. 

(2) DDR3 内 存 控制 器 ,具有 8 个 DMA 通道 和 4 个 高 性 能 AXIS 从 端口 。 

CD 高 带宽 外 设 控制 器 : 1Gbps 以 太 网 .USB 2.0、GPIO。 

(4) 低 带宽 外 设 控制 器 : UART .CAN PC, 

(5) 可 从 JTAG ,Quad-SPI 闪存 和 microSD 卡 进行 编程 。 

2. Artix-7 系列 可 编程 逻辑 

(1) 13 300 个 逻辑 片 ,每 个 具有 4 个 6 输入 LUT 和 8 个 触发 器 。 

(2) 630 KB 的 快速 Block RAM;220 个 DSP 切片 。 

(3) 4 个 时 钟 管理 片 , 每 个 片 都 有 一 个 锁 相 环 (PLL) 和 混合 模式 时 钟 管理 器 
(MMCM), 

(4) 片上 模 数 转换 器 (XADC) 。 
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8.1.3 Jupyter Notebook 


PYNQ 开发 板 的 编程 环境 为 Xilinx Linux 和 支持 Python 编程 的 Jupyter Notebook, 
在 ARM A9 双核 CPU 上 运行 的 Xilinx Linux 软件 如 下 。 

(D Linux 内 核 版 本 4. 6. 0, Python 3.6. 

(2) FPGA 的 基本 硬件 库 和 基于 Python 的 API 接口 。 

(3) 载 有 Jupyter Notebook 设计 环境 的 网 络 服务 器 。 

Jupyter Notebook 是 PYNQ 板 默 认 的 开发 环境 ,是 一 个 基于 浏览 器 的 交互 式 编程 计 
算 环境 ,具有 易 用 性 好 、 用 户 友 好 的 特点 。 在 使 用 Jupyter Notebook 编程 时 ,文件 里 可 以 
包含 代码 .画图 注释. 公式、 图 片 和 视频 。 当 PYNQ 开发 板 上 安装 好 镜像 文件 ,就 可 以 
在 Jupyter Notebook 里 轻松 地 用 Python 编程 ,使 用 硬件 库 和 Overlay 控制 硬件 平台 。 





8.2 ”实验 设计 


1. PYNQ 端 

基于 PYNQ 开发 ,完成 的 功能 如 下 。 

(1) 调用 API 录音 。 

(2) 发 送 录音 文件 或 频谱 图 。 

2. 服务 器 端 (Server) 

基于 Flask 开发 ,完成 的 功能 如 下 。 

CD 接收 录音 文件 ,调用 服务 端 处 理 程序 。 

(2) 运行 Keras 或 者 TensorFlow ,对 频谱 图 进行 判断 。 
(3) 返回 识别 结果 。 

服务 器 的 推断 模型 仍 为 AudioNet , 详 见 7. 1 节 。 


8.2.1 PYNO 设置 


PYNQ 板 硬件 的 初始 化 操作 过 程 如 下 。 


1. 烧 录 image 镜像 文件 
下 载 镜像 文件 并 解压 PYNQ-Z1 image, hÆ J vl. 4 PYNQ-ZI 2017 02 10 image. 
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将 空白 的 SD 卡 插入 计算 机 ,使 用 win32DiskImager 烧 录 镜像 文件 。 


2. 通过 USB 接口 或 网 线 连接 计算 机 与 PYNQ 开发 板 

第 一 步 , 设 置 好 跳 线 。 

第 二 步 ,安装 烧 录 好 镜像 文件 的 SD 卡 。 

第 三 步 ,使 用 Micro USB 线 将 PYNQ 开发 板 的 PROG UART 接口 连接 到 计算 机 ， 
用 来 给 PYNQ 供电 以 及 作为 串口 通信 。 

第 四 步 ,使 用 网 线 将 PYNQ 开发 板 连 接 到 路 由 器 或 计算 机 ;如 果 PYNGQ 通过 网 线 连 
接 到 路 由 器 ,PYNQ 将 被 自动 分 配 地 址 。 如 果 PYNQ 通过 网 线 连接 到 计算 机 ,需要 先 设 
置 计算 机 的 IP 地 址 。 

第 五 步 , 打 开 ON 开关 ,等 待 LED 闪 动 。 大 约 一 分 钟 后 将 有 两 个 蓝 色 的 LED 和 4 个 
黄 绿色 的 LED 同时 闪 动 ,随后 蓝 色 LED 关闭 ,4 个 黄 绿色 的 LED 灯亮 。 此 时 系统 启动 
完毕 ,如 图 8-2 所 示 。 





图 8-2 PYNQ 启动 操作 过 程 


3. Jupyter Notebook 浏览 器 编程 
打开 浏览 器 ,建议 采用 Chrome, Safari sk Firefox 浏览 器 ,IE 浏览 器 有 兼容 性 问题 。 
如 果 PYNQ 通过 网 线 连接 到 路 由 器 ,PYNQ 将 被 自动 分 配 地 址 。 输 入 http:// 
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pynq:9090 ,输入 密码 xilinx, 进 入 Jupyter Notebook. 

如 果 PYNQ 通过 网 线 连接 到 计算 机 ,需要 先 设置 计算 机 的 IP 地 址 为 192. 168. 2. 18， 
然后 再 打开 http://192. 168. 2. 99: 9090。 同 样 ,输入 密码 xilinx, 进入 Jupyter 
Notebook 。 

图 8-3 为 启动 Jupyter Notebook 后 在 计算 机 上 出 现 的 运行 界面 。 此 后 ,就 可 以 开始 
进行 对 PYNQ 开发 板 上 的 资源 ( 硬 驱动 和 软件 ) 进 行 远程 操作 。 

















[I 











z Jupyter [==] 

















图 8-3 运行 Jupyter Notebook 后 的 界面 


如 果 需 要 访问 PYNQ 板 内 文件 ,在 Windows 环境 下 ,采用 网 络 邻 居 访 问 。 


如 果 是 在 Linux 环境 下 ,采用 smb 协议 。 


PYNQ 板 更 新 可 以 通过 执行 脚本 完成 。 该 脚本 会 自动 访问 Git Hub 网 站 ,并 下 载 最 


8.2.2 服务 器 端 设 置 


实验 采用 微软 Azure zif GPU Windows Server 虚拟 主机 。 进 入 Windows 虚拟 机 ， 
通过 cmd 窗口 ,利用 之 前 的 数据 集 进行 TensorFlow 模型 的 训练 和 测试 ,生成 一 个 以 . h5 





HARRY model 文件 。 服 务 器 操作 如 下 。 
CD 下 载 audioNet 的 文件 ,将 训练 的 模型 文件 x . h5 放 入 相应 文件 夹 。 
从 GitLab 上 下 载 audioNet 项目 代码 , 网 址 如 下 : 


| 
(D 从 网 上 下 载 hmpeg 的 文件 , 放 到 对 应 的 文件 夹 下 。 














^ augmentation 2017/5/3116.53 XAR 

^ data 2017/5/31 1653 XAK 

T models 2017/6/15 16:44 文件 夹 

1 sox 2017/5/3 1653 。 Xp 

F tmp 2017/5/31 1653 X#E 
D gitignore 2017/5/31 16:53. GIGNORE 文 件 1KB 
口 fourierweightpy 2017/5/31 16:53 PY 文件 2KB 
L] model.py 2017/5/31 16:53 PY 文件 2KB 
L predict py 2017/5/31 16:53 PY 文件 1KB 
口 readme.md 2017/5/31 16:53 MD 文件 1KB 
C] sockDataGenerator.py 2017/5/31 16:53 PY 文件 3KB 
D) trainpy 2017/5/31 16:53 PY 文件 1KB 
Dvispy 2017/5/31 16:53 PY 文件 1KB 
L] webfrontpy 2017/6/15 16:46 PY 文 件 AKB 

| f M emm xm 大 小 

bin 2017/6/15 1646 — ftx 

* doc 2017/6/15 16:46 文件 严 

F licenses 2017/6/15 16:46 文件 夹 

T presets 2017/6/15 16:46 文件 夹 

L] gitkeep 2017/5/31 16:53 GITKEEP 文件 OKB 
README.txt 2017/5/19 20:24 文本 文档 4KB 











(3) 打开 网 页 http://localhost:5000/predict, 并 上 传 音频 文件 进行 测试 。 
在 文件 根 目录 下 按 Shift 十 右键 打开 cmd 窗口 ,输入 activate py35 激活 Python 软 
件 , 然 后 调用 webfront. py 文件 生成 网 页 测试 端口 。 操 作 如 下 : 


该 命令 启动 了 Flask 的 Web 服务 器 ,简单 的 界面 如 图 8-4 Br 28 , 
在 本 地 上 传 一 个 *.wav 的 录音 文件 ,测试 推断 的 正确 性 。 
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* C © localhost5000/predict 


Upload audio for predict 


.选择 文件 未 选择 任何 文件 | Upload 








图 8-4 服务 器 界面 


8.3 实验 过 程 


实验 过 程 为 操作 PYNQ 板 , 并 采用 PYNQ 板 对 录音 进行 处 理 ,发 送 到 具有 语音 识别 


功能 的 服务 器 上 。 
8.3.1 Audiolnput 


1. 创建 新 的 音频 项 目 


Create new audio object 


In [9]: from pynq import Overlay 
` | from pyng.drivers import Audio 


Overlay (' base. bit"). download) 
pAudio = Audio() 





2. 录音 并 将 内 容 保存 为 Recording 1. pdm 





Create new audio object 


In [8]: from pynq import Overlay 
~” | from pyng.drivers import Audio 


Overlay (' base. bit'). download () 
pAudio = Audio) 


Record and play 


Record a 3-second sam ple and save it into a file. 


In [8]: | pAudio. record(3) 
pAudio. save (“Recording_1. pdm") 
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Load and play 


Load a sample and playthe loaded sample. 


In [9]: | pAudio. load ("Recording 1. pdm”) 


pAudio. play Ó 





3. 将 录音 转换 成 wave 格式 并 发 送 到 服务 器 端口 进行 语音 识别 





[10]: 


Step 1:Preprocessing 


In this step, we first convert the gabitineger buffer to 16-bit. Then we divide 16-bit 
words (16 1-bit samples each) into 8-bit Words with 1-bit sam ple each. 


import time 
import numpy as np 


start - time. time() 
af uint8 = np. unpackbits (pAudio. buffer. astype (np. int16) 


- byteswap (True). view(np. uint8)) 
end - time.time() 


print (“Time to convert (:,d) PDM samples: (:0.2f) seconds” 
. format (np. size (pAudio. buffer)*16, end-start)) 

print “Size of audio data: (:,d) Bytes" 
. format (af uint8. nbytes)) 


Time to convert 9,216,000 PDM samples: 0.08 seconds 
Size of audio data: 9,216,000 Bytes 








In 


n: 


Step 2: Converting PDM to PCM 
We now convert PDMto PCM by decim ation. The sam ple rate is reduced from 3MHz to 
Iz. 


We will remove the first and last 10 samples in case there are outliers introduced by 
decimation. We will also remove the DC offset from the waveform. 


import time 
from scipy import signal 


start = time.time() 
af dec = signal. decimate (af_uint8, 8, zero phase-True) 
af dec = signal. decimate (af_dec, 6, zero phase-True) 
af dec = signal. decimate (af_dec, 2, zero phase-True) 
af dec = (af dec[10:-10]-af dec[10:-10]. mean()) 
end = time. time () 
print ("Time to convert (:,d) Bytes: [:0.2f) seconds” 
. format (af_uint8. nbytes, end-start)) 
print (Size of audio data: {:,d} Bytes” 
- format (af dec. nbytes) ) 
del af uint8 





Time to convert 9,216,000 Bytes: 6.04 seconds 
Size of audio data: 767,840 Bytes 
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In (15 


Step 3: Audio Playback in Web Browser 


from IPython.display import Audio as IPAudio 
ZIPAudio(af dec, rate-32000) 

import scipy. vefile 

Swavefile. write('test. wav', 32000, af dec) 
import wave 

import io 

SENKÉRRapI tby testringfEAS SUE EE 
fp-open(af dec, rb) 

data-fp. read) 

fp. close 0 

主要 部 从 

aud-io. BytesIO (data) 

sound-AudioSegment. from file (aud, format-'mp3') 













raw data - sound. data 
ASTE, Kir SEE, 
lelen(raw data) 





f-wave. open "test. wav”, wb) 

f. setnchannels (1) 

f. setsampvidth (2) 

f. setframerate(32000) 

f. setnframes(1) 

f. writeframes (raw data) 

f.close() 

import requests 

r = requests. post (' 101. 6. 161. 12:5000/predict', filezopen('')) 


4. 绘制 语音 频谱 等 








In [16]: 


| 





Amplitude over time 


Wmatplotlib inline 
import numpy as np 
import matplotlib. pyplot as plt 


plt.figure(num-None, figsize=(15, 5)) 

time axis = np.arange(0, ((len(af, dec) ) /32000), 1/32000) 
plt.title('Audio Signal in Time Domain') 
plt.xlabel( Time in s') 

plt. ylabel(' Amplitude’) 

plt.plot(time axis, af dec) 

plt. show() 


Audio Signal in Time Domain 





0.0100 
0.0075 
0.0050. 
0.0025 
0.0000. 
0.0025 
—0.0050. 
0.0075 
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Frequency spectrum 


In [17]; | from seipy. fftpack import fft 
yf = fft(af dec) 
yf_2 = yf[1:1en(yf) //2] 
xf = np.linspace(0.0, 32000//2, len(yf 2)) 


plt.figure(num-None, figsize-(15, 5)) 

plt. plot (xf, abs(yf 2) 

plt.title('Magnitudes of Audio Signal Frequency Components') 
plt. xlabel('Frequency in Hz') 

plt. ylabel( Magnitude’) 

plt. show) 


Magnitudes of Audio Signal Frequency Componenti 





10 


LJ 


— 
E 











Use the classic plot style for better display 


In [18]: import matplotlib 


np. seterr (divide-' ignore', invalid-' ignore') 
matplotlib. style. use("classic") 
plt.figure(num-None, figsize-(15, 4)) 
plt.title('Audio Signal Spectogram') 
plt.xlabel('Time in s') 
plt.ylabel('Frequency in Hz') 

— = plt.specgram(af dec, Fs-32000) 








2 
0 
0 2000 4000 — 6000 — 8000 10000 — 12000 14000 16000 
MÀ 
Frequency spectrum over time 
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8.3.2 传送 云端 


1. 文件 格式 转发 

将 后 组 为 pdm 的 文件 转换 为 test. wav 的 波形 文件 , 将 其 发 送 到 服务 器 端 上 。 

将 pdm 格式 转换 成 更 为 常用 的 wav 格式 的 代码 ,已 经 在 audioplayback. ipynb 给 出 
示例 代码 ,这 里 借助 scipy 的 波形 文件 将 已 经 预 处 理 好 的 数据 存 成 wav 文件 等 待 传输 , 代 
码 如 下 : 





2. 发 送 云 端 

采用 向 服务 器 端 发 送 HTTP 协议 的 POST 请 求 的 方法 实现 ,我 们 使 用 了 Python 的 
requests 库 ,构造 了 一 个 符合 要 求 的 URL 格式 后 发 出 请 求 ,因为 POST 请 求 会 得 到 服务 
器 端 返 回 的 预测 结果 ,保存 在 返回 值 的 text 域 中 。 代 码 如 下 : 





最 后 结果 如 下 : 


参考 文献 
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在 第 2 章 中 简单 介绍 了 各 种 机 器 视觉 的 对 象 检测 (Objects Detection, OD) 方 法 ,本 
童 将 对 YOLO 系列 算法 的 原理 进行 分 析 介 绍 ,并 在 英 伟 达 的 Jetson TX1 上 进行 YOLO 
算法 的 实践 工作 。 


9.1, 英 伟 达 Jetson TX1 


Jetson TX1 是 能 入 式 模块 化 计算 平台 ,可 提供 视觉 计算 应 用 所 需 的 性 能 和 节能 效 
果 。 它 以 Maxwell 架构 为 基础 构建 ,含有 256 个 CUDA 核心 ,提供 每 秒 超过 1 万 亿 次 浮 
点 运算 的 性 能 , 功 耗 仅 为 10 一 15W 。 

Jetson TX1 是 64 位 CPU .具有 4K 视频 编 解码 功能 ,拥有 1400 兆 像 素 / 秒 的 相机 接 
口 ,是 嵌入 式 深度 学 习 、 计 算 机 视觉 .图形 和 GPU 计算 的 工具 。 


9.2, YOLO 算法 


9.2.1 YOLO 算法 


YOLO 算法 (You Only Look Once) 是 第 一 个 达到 实时 性 要 求 的 深度 学 习 检 测算 法 ， 
其 最 大 的 特点 在 于 运算 时 的 高 速 性 (在 Titan X GPU 上 的 运行 速度 可 以 达到 45 帧 / 秒 ) 。 
YOLO 算法 将 过 去 研究 者 们 对 目标 检测 任务 的 认识 由 分 类 问题 (Classification) 化 简 
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为 回归 问题 (Regression) ,在 保证 精度 不 过 多 损失 的 前 提 下 , 极 大 地 提高 检测 速度 。 


1. YOLO 的 目标 检测 流程 
YOLO 算法 进行 目标 检测 的 基本 流程 如 图 9-1 所 示 ,详细 介绍 如 下 。 







边界 框 + 置 信 度 





最 终 检测 结 





SXS 个 网 络 


类 别 的 概率 图 
图 9-1 YOLO 算法 进行 目标 检测 的 基本 流程 示意 图 


首先 ,将 整 张 图 像 输入 到 神经 网 络 中 ,对 图 像 进 行 预 处 理 ,分 割 为 S x S 个 网 格 
(Grid); 如 果 一 个 目标 物体 (Object) 的 中 心 落 在 某 网 格 中 , 则 该 网 格 负责 后 续 检 测 该 目 
标 物 体 的 类 别 (Class) 和 位 置 (Location) 。 

随后 ,通过 预先 训练 好 的 神经 网 络 模型 ,每 个 网 格 负责 预测 B 个 边界 框 ,每 个 边界 框 
对 应 如 下 预测 参数 : 边界 框 的 中 心 点 坐标 (+、y) ,边界 框 的 宽度 、 高 度 (w、h) 以 及 辕 信 和 度 
(Confidence) 。 置 信和 度 综合 反映 了 当前 边界 框 中 存在 目标 的 可 能 性 Pr(Object) 以 及 目标 
位 置 预测 的 准确 性 IOU8 吕 ,具体 形式 如 下 : 

Confidence = PrCObject)X IOUR (9-1) 
Hp , IOU (Intersection Over Union) X& s ffl] J fii WHE (Prediction) RI E Sz f£ (Ground 
Truth) 之 间 的 重 和 到 联合 比 , 即 两 者 重 友 区 域 (交集 ) 大 小 与 两 者 联合 区 域 ( 并 集 ) 大 小 之 间 
的 比值 ,数学 定义 如 下 : 





SY Area of Intersection 


IOUR 一 Area of Union SA 
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如 果 边 界 框 中 不 存在 目标 物体 , 则 Pr(CObject) 一 0, 不 再 进行 后 续 操 作 , 跳 至 判断 下 
一 边界 框 。 

如 果 存 在 目标 , 则 在 预测 上 述 参数 的 同时 ,预测 该 网 格 中 物体 属于 某 一 类 别 的 条 件 
概率 Pr(Class; | Object ) , 取 条 件 概率 最 大 的 类 别 作为 我 们 的 预测 。 如 此 就 可 得 到 每 个 边 
界 框 中 的 物体 类 别 可 能 性 和 位 置 预测 准确 性 ， 

Pr(Class; | Object )X Pr (Object )X IOUR = Pr(Class: )X IOUS — (9-3) 

Fi Xp CS BEI py Dk E B] (f C Threshold) KY Fr £i 32 9 WE Jt £7 3E 9 X fH HJH CNon- 
Maximum Suppression, NMS) K £ Alb HE ,去 重 后 得 到 最 终 的 检测 结果 。 


2. YOLO 的 深度 神经 网 络 

YOLO 算法 所 采用 的 神经 网 络 结构 ( 见 图 9-2) 的 设计 借鉴 了 GoogleNet 和 NIN 网 
络 (Network In Network) 的 思想 ,采用 24 个 卷 积 层 后 接 2 个 全 连接 层 的 结构 ,最 终 输出 
S X S X (B X 5 + Z Classes) 的 三 维 张 量 (Tensor) ,用 于 进行 检测 判断 。 
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9-2 YOLO 算法 采用 的 神经 网 络 结构 


YOLO 的 神经 网 络 结构 如 表 9-1 所 示 。 

虽然 YOLO 算法 在 检测 实时 性 方面 表现 出 色 ,但 是 与 诸如 Faster R-CNN 等 高 精度 
算法 相 比 ,其 在 检测 结果 准确 性 方面 存在 的 次 端 也 就 暴露 了 出 来 : 尤其 是 当 图 像 中 出 现 
成 群 相 邻 的 小 目标 物体 时 ,或 是 对 于 一 些 长 宽 比较 为 特殊 的 物体 实例 ,YOLO 容易 发 生 
漏 检 的 问题 。 





YOLO 的 神经 网 络 结构 


Size / Stride 


Output 
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Type Filters 
conv 32 
max 

conv 64 
max 

conv 128 
conv 64 
conv 128 
max 

conv 256 
conv 128 
conv 256 
max 

conv 512 
conv 256 
conv 512 
conv 256 
conv 512 
max 

conv 1024 
conv 512 
conv 1024 
conv 512 
conv 1024 
conv 1024 
conv 1024 
route 

reorg 

route 

conv 1024 
conv 55 
YOLOv2 算法 


1. Anchor 机 制 
为 了 克服 YOLO 算法 存在 的 准确 性 问题 ,J. Redmon 借鉴 了 Faster R-CNN 算法 和 





3X3/1 
2x2/2 
3X3/1 
2x2/2 
3X3/1 
1X1/1 
3X3/1 





416 416 X z 
208 X 208X 3 
208 X 208X 
104 X 104 x 
104 X 104 X 
104 X 104X 
104 X 104 X 


64 
64 
128 
64 
128 


52X52X128 
52X52X 256 
52X52X128 
52X52X256 
26X26X256 
26X26X512 
26X26X 256 
26X26X512 
26 X 26 X 256 


26X26X5£ 


13 
13X13X 


13X13X5 


13X13X 


13X13X5 
1024 
1024 
1024 


3X13x 
13X13X 
13X13* 





13 X 13 X 2048 


13X13 X 1024 
13X13X55 
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SSD 算法 的 思路 ,在 原 有 YOLO 算法 的 基础 上 采取 了 Anchor 机 制 ( 见 图 9-3(a)) 来 处 理 
不 同 长 宽 比 例 物体 的 检测 问题 。 

Anchor 机 制 即 神经 网 络 通 过 学 习 训 练 ,预先 设 定 不 同 边 界 框 的 长 宽 比 的 可 能 值 ,从 
而 使 得 边界 框 能 够 更 容易 探测 到 长 宽 比 相似 的 物体 。 作 者 在 这 里 创新 性 地 使 用 了 K EJ 
值 聚 类 (KK-means Cluster) 的 方法 ,得 到 了 神经 网 络 开始 训练 前 的 最 佳 起 始 Anchor 长 宽 
比 和 数量 ,提升 了 Anchor 机 制 的 最 终 效 果 。 


2. 新 增 处 理 技巧 

YOLO 原作 者 J. Redmon 还 在 新 算法 中 加 入 了 诸多 其 他 技巧 来 提升 算法 的 准确 度 
和 速度 ,提出 了 YOLO9000。 主 要 的 改进 如 下 。 

CD 通过 直接 位 置 预测 ( 见 图 9-3(b)) ,优化 神经 网 络 训练 时 的 收敛 速度 ;通过 批 次 规 
范 化 (Batch Normalization) 防 止 过 拟 合 现象 的 发 生 。 

(2) 在 网 络 中 加 入 转移 层 (Passthrough Layer) ,连接 不 同 分 辨 率 下 的 特征 图 谱 
(Feature Map) ,在 增强 网 络 检测 小 尺寸 物体 能 力 的 同时 ,又 不 至 于 增加 过 多 的 计算 量 ， 
保持 了 实时 性 的 优势 。 

通过 上 述 改 进 ,YOLOYv2 算法 显著 提升 了 检测 结果 的 准确 性 ,同时 增 快 了 运算 速度 
(由 原先 的 45 帧 / 秒 提 升 至 67 帧 / 秒 ) ,使 得 YOLOv2 成 为 当前 最 佳 的 实时 高 精度 目标 检 
测算 法 ,在 计算 速度 和 检测 准确 度 之 间 达 到 一 个 较 好 的 平衡 。 


[s] 





























(a) Anchor 机 制 (b) 直接 位 置 预测 
图 9-3 YOLOv2 算法 新 增 部 分 技巧 示例 
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9.2.3 YOLO 的 TX1 实践 


本 实验 中 ,使 用 英 伟 达 Jetson TXI 来 安装 YOLO。 将 TX1 和 USB 摄像 头 相连 «£5 
Æ YOLO 程序 环境 ,运行 一 个 实时 物体 检测 实例 。 

在 安装 之 前 ,确保 TX1 系统 中 已 装 有 CUDA 8.0.CUDNN.OPENCV, 

TX1 装机 启动 后 ,打开 命令 行 ( 按 Ctrl 十 Alt 十 T 键 ), 依 次 输入 以 下 命令 ,下 载 
YOLO 源 代码 和 已 经 训练 好 的 模型 : 


查看 Makefile X fF vim Makefile) ,并 将 前 三 行 修改 成 


保存 后 ,编译 YOLO 程序 : 


待 编译 完成 后 ,先进 行 单 张 图 片 的 物体 检测 : 


查看 并 分 析 命 令 行 和 返回 图 片 中 的 识别 结果 。 
接着 ,进行 实时 视频 的 物体 检测 (确保 已 将 USB 摄像 头 连 上 主机 )。 由 于 便携 式 平 
f; TXI 的 性 能 限制 ,使 用 常规 模型 的 识别 速度 较 慢 ,建议 使 用 第 二 行 命令 (缩减 后 的 模 
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查看 实时 检测 的 效果 (视频 检测 时 ,在 命令 行 中 输入 Ctrl 十 C 停止 程序 ) 。 


9.3, SSD 算法 


9.3.1 SSD 算法 介绍 


Wei Liu 等 人 提出 了 SSD 算法 。 其 思想 是 参考 了 Faster R-CNN 算法 中 的 Anchor 
机 制 来 处 理 不 同 长 宽 比 的 物体 ,并 通过 在 不 同 尺 度 的 卷 积 特征 图 (Multi-scale Feature 
Maps) 上 进行 检测 ,从 而 解决 YOLO 算法 在 小 尺寸 目标 物体 的 漏 检 问 题 。 

SSD 的 运行 速度 高 于 YOLO, 在 TX1 板 上 ,运行 速度 约 8. 5 帧 / 秒 (GPU) 和 约 0. 03 
帧 / 秒 (CPU)。 

更 多 的 具体 技术 细节 请 参见 项 目 网 站 : 


9.3.2 SSD 的 TX1 实践 


使 用 Jetson TX1 运行 SSD 算 法 。 预 先 确 保 系统 中 已 装 有 Ubuntu 16. 04、CUDA 8.0, 
CUDNN,OPENCV J£, 

TX 装机 启动 后 ,打开 命令 行 , 依 次 输入 以 下 命令 ,下 载 源 代码 和 训练 好 的 模型 。 

SSD 作者 给 出 的 SSD 算法 ,高 度 依赖 Caffe 框架 。 使 用 时 需要 同时 下 载 Caffe 代码 ， 
并 一 同 编译 运行 。 

第 一 步 ,下载 源码 。 

SSD 使 用 Caffe 框架 。 
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第 二 步 , 修 改 Makefile. config ,修改 Makefile ,补充 hdf5 类 库 。 
修改 Makefile. config 文件 : 





修改 Makefile 并 启用 CUDNN 类 库 : 


补充 hdf5 类 库 。 


第 三 步 , 编 译 Caffe。 





第 四 步 ,下 载 已 训练 好 的 模型 ,运行 SSD. 
下 载 地 址 :https://myurasov. github. io/assets/posts/ssd-tx1 /ssd-txl. tar. gz, 
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第 五 步 ,下 载 使 用 已 有 模型 。 
想 直 接 看 SSD 效果 的 话 , 可 以 下 载 训练 好 的 模型 ; 
下 载 地 址 : 


下 载 后 ,得 到 了 一 个 压缩 包 models_VGGNet_VOC0712_SSD_300x300. tar. gz, 将 其 
解压 ,把 其 中 的 VGGNet 文件 夹 放 到 TXI 平台 的 目录 之 下 。 


第 六 步 , 配 置 摄像 头 。 
修改 test. prototxt 文件 : 
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阿尔 法 围棋 的 胜利 ,给 整个 社会 一 次 人 工 智 能 技术 的 宣传 。 阿 尔 法 围棋 的 成 功 说 明 
用 深度 学 习 和 强化 学 习 技术 ,以 及 蒙特 卡 洛 树 搜索 方法 ,可 以 完成 很 多 规则 清晰 的 计算 
机 游戏 的 人 工 智 能 ,并 能 有 效 击败 人 类 职业 选手 。 

阿尔 法 围棋 的 胜利 ,本 质 上 也 是 一 批 计算 机 科学 家 击败 了 另 一 批 职业 围棋 选手 ,是 
一 次 人 类 创造 智能 工具 能 力 的 胜利 ,也 是 科技 的 胜利 ! 

人 工 智 能 依然 是 一 个 快速 进展 的 领域 ,所 带 来 的 变化 也 是 巨大 的 。 需 要 有 人 系统 地 
整理 .调研 和 实证 其 中 的 一 些 技 术 。 人 工 智 能 是 一 个 很 大 的 领域 ,也 是 计算 机 的 一 个 应 
用 ,涉及 计算 机 体系 结构 .分 布 式 系统 、 软 硬件 协同 设计 、 算 法 与 数据 管理 等 ,但 是 其 核心 
还 是 算法 与 数据 管理 。 本 书 涉及 的 深度 学 习 与 强化 学 习 领 域 以 及 其 实践 应 用 也 仅仅 是 
其 中 很 小 的 一 部 分 。 

人 工 智能 需要 不 断 创 新 ,要 求 水 准 高 ,要 有 不 断 地 研究 探究 的 精神 。 大 凡 与 人 工 智 
能 相关 的 技术 ,都 需要 有 训练 有 素 的 头脑 。 人 工 智 能 是 高 新 技术 的 代表 ,是 典型 的 知识 
经 济 。 创 业 公司 估 值 如 此 高 ,是 因为 其 中 凝聚 了 一 只 最 优秀 的 技术 团队 ,是 技术 领域 的 
最 强大 脑 。 

人 工 智能 领域 同时 也 是 与 科研 最 紧密 的 领域 之 一 。 很 多 算法 的 研究 ,高校 具有 最 优 
秀 的 头脑 ,因此 优势 巨大 。 同 时 ,也 要 求 科研 工作 者 联系 实际 问题 ,其 科研 成 果 不 仅 是 工 
业 应 用 的 产品 ,也 是 一 篇 篇 学 术 研究 论文 。 
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Python 是 一 种 解释 型 .面向 对 象 .动态 数据 类 型 的 高 级 程序 设计 语言 。Python 广泛 
应 用 于 数据 科学 与 科学 计算 领域 。 

TensorFlow 是 一 套 开源 机 器 学 习 与 深度 网 络 的 开发 库 。TensorFlow 框架 提供 了 
最 全 面 的 Pythor 语言 API 接口 。 

本 书 安装 的 软件 是 Python 3.6. 2 和 TensorFlow 1. 3。 默 认 操 作 系 统 为 Windows 10, 


AA, Python 实践 基础 


1. Python 系统 目录 和 文件 名 操作 


CD 字符 串 类 型 的 split() 方 法 ,通过 指定 分 隔 符 对 字符 串 进行 分 隔 。 


(2) 字符 串 str 转换 成 int: int. value —int(str. value). 


eoe 
eoe 
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(3) glob 模块 用 于 逐个 获取 匹配 文件 的 路 径 名 。 


2. Python 音频 波形 和 频谱 图 
(1) 打开 Juypter notebook 或 者 IPython 。 


E 
b 


查看 IPython 的 工作 路 径 : 


(2) 用 录音 程序 生成 a. m4a 文件 ,进行 音频 文件 的 转化 。 
使 用 ffmpeg 工具 ,将 不 同 格式 的 音频 文件 归 一 化 。 





(3) 生成 语音 波形 图 。 





(4) 生成 频谱 图 。 
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3. Python 实践 : sigmoid ,softmax 和 argmax 函数 

用 Python 绘制 机 器 学 习 有 几 个 重要 函数 , 即 sigmoid ,softmax 和 argmax 函数 等 。 

绘图 时 需要 matplotlib( 见 http; //matplotlib. org/ ) 。 

运算 时 需要 numpy( 见 https://docs. scipy. org/doc/numpy-dev/user/quickstart. 
html) 。 

1) sigmoid 函数 





2) softmax 函数 





3) argmax PAZ 
输入 一 个 one_shot 向 量 ( 只 有 一 个 元 素 为 1, 其 余 元 素 为 0, 见 https://docs. scipy. 


org/doc/numpy/reference/generated/numpy. argmax. html), 





A2 TensorFlow 实践 基础 


1. TensorFlow 的 变量 与 矩阵 定义 





TensorShape ([Dimension (2), Dimension(2)]) 





TensorShape ([Dimension (2), Dimension(2)]) 





[<tf.Variable 'Variable:0' shape- (2, 2) dtype-float32 ref», «tf.Variable 

'Variable 1:0' shape- (2, 2) dtype-float32 ref>] 

2. TensorFlow 变量 实例 化 和 矩阵 相 乘 

TensorFlow 变量 在 初始 化 后 ,会 赋予 一 个 指定 的 操作 。 只 有 在 sess. run() 时 , 才 真 
正 有 数值 ,并 进行 运算 。 





((19. 22.) 
[43. 50.]] 


3. TensorFLow 的 sigmoid ,softmax 和 softplus 函数 
这 些 函 数 已 经 被 有 效 地 封装 到 TensorFlow 库 中 ( 见 https://www. tensorflow. org/ 
api guides/python/nn) 。 





4. TensorFLow 网 站 的 教程 链接 

1) TensorFlow 线性 模型 

JL https://www. tensorflow. org/tutorials/wide。 

2) TensorFlow 逻辑 斯 提 回 归 

JL https://www. tensorflow. org/tutorials/wide # defining the logistic regression 
. model, 

3) TensorFlow DNN 分 类 器 (Iris 数据 集 ) 

JL https://www. tensorflow. org/get started/tflearn, 

4) TensorFlow CNN 分 类 器 (MINIST 数据 集 ) 

见 https://www. tensorflow. org/tutorials/layers, 

5) TensorFlow 深度 卷 积 网 络 (CIFAR 数据 集 ) 


见 https://www. tensorflow. org/tutorials/deep cnn, 


